Wie Roboter lernen, ihren eigenen Code zu schreiben

Ein spezielles Sprachmodell ist in der Lage, Code zur Steuerung von Robotersystemen zu erzeugen.

52

(Bild: sdecoret / Shutterstock.com)

09.11.2022, 10:15 Uhr

Lesezeit: 3 Min.

MIT Technology Review

Von

Dr. Wolfgang Stieler

Können Roboter bald ihren eigenen Code schreiben? Ein Forschungsprojekt von Google kommt diesem Ziel ein ganzes Stück näher: In dem Projekt "Code as Policies" (CaP) präsentieren sie ein Sprachmodell, das aus einer umgangssprachlichen Aufgabenbeschreibung, kurzen Codeschnipseln und Kommentaren Python-Code erzeugt, mit dem die Roboter die vorgegebene Aufgabe lösen können. "CaP ermöglicht es einem einzigen System, eine Vielzahl komplexer und unterschiedlicher Roboteraufgaben ohne aufgabenspezifisches Training auszuführen", schreibt das Forschungsteam..

Ursprünglich hatten die Google-Forscher ein Sprachmodell dafür eingesetzt, umgangssprachliche Anweisungen wie etwa "Hole mir etwas, um den Schreibtisch sauber zu machen" in eine Reihe von Einzelaufgaben zu zerlegen, die ein Task Planner der Reihe nach abarbeiten kann. Der neue Ansatz kommt allerdings sehr viel schneller zum Ziel – und ist nicht darauf angewiesen, dass der Roboter bereits für alle Einzelschritte trainiert wurde.

So erzeugte das System beispielsweise Code, mit dem Roboterarme geometrische Formen zeichneten und spezifizierte Gegenstände in der richtigen Form ablegte, aber auch einen ihrer Haushaltsroboter anwies, eine leere Coladose in den zugehörigen Mülleimer zu werfen.

Jetzt auch mit Robotersteuerung

Dass große Sprachmodelle in der Lage sind, aus umgangssprachlichen Beschreibungen Code zu erzeugen, ist natürlich grundsätzlich nicht neu. Github etwa setzt mit CoPilot auf dem Open-AI-Modell Codex auf, das genau das tut. Die direkte Verknüpfung mit Modulen zur Robotersteuerung ist allerdings neu. In einem zugehörigen Paper zeigen die Forschenden, dass sich mit cleverer Vorgabe der Prompts ein rekursives System von Funktionen und Modulen schaffen lässt, mit dem sich recht komplexe Aufgaben lösen lassen.

Allerdings ist die automatisierte Erstellung von Code nicht unumstritten. Denn zum einen neigen große Sprachmodelle zum "Halluzinieren", das heißt, sie können Output erzeugen, der auf den ersten Blick sinnvoll aussieht, aber komplett sinnfrei ist. Das gilt nicht nur für Texte, sondern auch für Code. Zum anderen gibt es mittlerweile juristischen Streit um diese Sprachmodelle, weil sie Beispiele aus dem Internet für das Training nutzen, ohne die Urheber auch nur gefragt zu haben, oder sie zu nennen.

Manche Forscher, die die Entwicklung einer unkontrollierbaren Superintelligenz fürchten, dürfte diese Arbeit ebenfalls ziemlich beunruhigen. Denn wenn der Kreis geschlossen würde, der Roboter also eigene Ziele formulieren könnte, die dann seinen Code modifizieren, käme das System dem gefürchteten Reward Hacking bereits ziemlich nahe. Das Schlagwort beschreibt eine Situation, in der ein Roboter selbstständig nach der besten Lösungsstrategie für ein sehr allgemein formuliertes Problem sucht, und die Strategie wählt, in der die Zielfunktion maximiert wird. Gibt man der Maschine also vor, sie solle einen Raum säubern, könnte sie bei ihrer Planung auch auf die Idee kommen, den Dreck im wahrsten Sinne des Wortes unter den Teppich zu kehren.