MIT lässt Roboter textbasiert mit LLMs navigieren
MIT-Forscher umgehen rechenintensive visuelle Verfahren, indem sie Roboter ĂĽber textbasierte Anweisungen ĂĽber ein KI-Sprachmodell ansteuern und navigieren.
Das Massachusetts Institute of Technology (MIT) hat zusammen mit dem MIT-IBM Watson AI Lab eine Navigationsmethode entwickelt, um visuelle Merkmale aus Bildern der Umgebung eines Roboters in Text umzuwandeln, die ein umfangreiches Sprachmodell (Large Language Model – LLM) verwendet, um damit den Roboter sprachgesteuert in seiner Umgebung navigieren zu lassen. Dadurch können aufwendige, rechenintensive visuelle Verfahren eingespart werden.
Soll etwa ein Haushaltsroboter eine Waschmaschine, die sich im Keller befindet, mit Wäsche auffüllen, muss der Roboter auf diese Sprachanweisung hin, diese Anweisung in mehrere Einzelanweisungen aufteilen und ausführen. Dazu gehört etwa, die Treppe in den Keller hinunterzugehen und die Waschmaschine zu finden. Dies erfordert die Kombination der Anweisungen mit den visuellen Informationen, die der Roboter erfasst. Die Bewältigung dieser Navigationsaufgabe erfordert normalerweise viele visuelle Daten, um den Roboter entsprechend trainieren zu können. Solche Daten sind oft schwer zu beschaffen.
Die MIT-Wissenschaftler haben deshalb eine simplere Methode entwickelt, wie sie in dem wissenschaftlichen Paper "LangNav: Language as a Perceptual Representation for Navigation" beschreiben, das im Preprint auf Arxiv erschienen ist. Diese Methode sieht vor, visuelle Repräsentationen in Texte umzuwandeln, die dann in ein LLM eingespeist werden können, um mehrstufige Navigationsaufgaben zu erfüllen. Die Methode erstellt Textbeschreibungen aus dem, was der Roboter über seine Kameras sieht. Das Sprachmodell nutzt diese Informationen dazu, um Aktionen vorauszusagen, die der Roboter dann auszuführen hat, um die Sprachanweisungen des Nutzers umzusetzen.
Der Vorteil dieser rein textbasierten Methode ist es, dass ebenfalls mithilfe eines großen Sprachmodells vorab eine große Anzahl synthetischer Trainingsdaten erzeugt werden kann. Das steht im Gegensatz zu visuellen Methoden, für die entsprechende Trainingsdaten nur aufwendig beschafft werden können.
"Indem wir ausschließlich Sprache als Wahrnehmungsrepräsentation verwenden, ist unser Ansatz unkomplizierter. Da alle Eingaben als Sprache kodiert werden können, können wir eine für den Menschen verständliche Trajektorie erstellen", sagt Bowen Pan, Student der Elektrotechnik und Informatik (EECS) und Hauptautor der Studie.
Wahrnehmung in Text umwandeln
Die Umwandlung der vom Roboter erfassten visuellen Daten in Textbeschreibungen haben die Wissenschaftler über ein einfaches Beschriftungsmodell gelöst. Die Beschriftungen werden mit den sprachbasierten Anweisungen des Nutzers kombiniert und in ein LLM eingespeist. Das Sprachmodell entscheidet dann, welchen nächsten Navigationsschritt der Roboter ausführen soll.
Das LLM gibt dabei textbasiert eine Beschreibung der Szene aus, die der Roboter nach dem Abschluss eines Navigationsschrittes sehen sollte. Auf diese Weise wird eine Art Protokoll ĂĽber den Verlauf der Bewegungsbahn des Roboters erstellt. Der Roboter weiĂź so, wo er bisher gewesen ist.
Eine Beschriftung könnte etwa lauten: "In einem Winkel von 30 Grad zu Ihrer Linken befindet sich eine Tür mit einer Topfpflanze daneben, hinter Ihnen liegt ein kleines Büro mit einem Schreibtisch und einem Computer." Das Sprachmodell kann nach Auswertung dieser Information entscheiden, ob der Roboter zur Tür gehen oder in das Büro gehen soll. Die Beobachtungsinformationen haben die Wissenschaftler standardisiert, um die Auswertung zu erleichtern. Das sei eine der schwierigsten Aufgaben gewesen, sagt Pan.
Vorteile der textbasierten Methode – mit Einschränkung
Bei Tests der textbasierten Methode fanden die Wissenschaftler heraus, dass sie sich in etwa genauso gut eignet, um einen Roboter sprachgesteuert zu navigieren, wie rein bildgebende Verfahren. Die textbasierte Methode hat jedoch mehrere Vorteile: Sie ist weniger rechenintensiv, um synthetische Trainingsdaten zu erzeugen. Die Daten können außerdem einfacher ausgewertet werden als computergenerierte visuelle Trainingsinformationen, die zudem etwa beleuchtungsbedingt anders aussehen können als eine reale Szene. Zudem sei die textbasierte Variante einfacher für den Menschen zu verstehen. So könne etwa bei Problemen besser ausgewertet werden, was die Ursache war. Hinzu kommt, dass sich die Methode auf unterschiedliche Aufgaben und Umgebungen anwenden lässt, ohne dass das Modell geändert werden muss.
Die textbasierte Methode hat jedoch auch einen Nachteil: Sie kann etwa keine Tiefeninformationen transportieren, wie es bildgebende Verfahren können. Dieses Manko wollen die MIT-Forscher nun angehen und untersuchen, inwieweit große Sprachmodelle die Fähigkeit zu einem räumlichen Bewusstsein entwickeln können und ob sich dies auf die sprachbasierte Navigation positiv auswirken könnte.
(olb)