Mittels Sprachmodell Robotik steuern: Google und TU Berlin stellen PaLM-E vor

PaLM-E ist ein visuelles Sprachmodell. Es wird mit Text- und Bilddaten trainiert. Nach einem Befehl generiert das Sprachmodell Anweisungen für den Roboter.

In Pocket speichern vorlesen Druckansicht 1 Kommentar lesen

(Bild: Blue Planet Studio/Shutterstock.com)

Lesezeit: 4 Min.

Forscher von Google Robotics und der Technischen Universität Berlin haben PaLM-E entwickelt. Das visuelle Sprachmodell wird mit Text- sowie Bilddaten trainiert, nimmt Befehle auf und leitet diese an die einzelnen Komponenten eines Roboters weiter – etwa einem Greifarm. PaLM-E ist ein Akronym für "Pathways Language Model" und "Embodied". Das "Pathways Language Model" ist das neuste Sprachmodell von Google.

Laut dem Forschungspapier soll es mit 562 Milliarden Parametern das zurzeit größte visuelle Sprachmodell sein. "Embodied" ist Englisch für "Verkörperung". Das Kürzel verweist darauf, dass diese Version des "Pathways Language Model" auf die Aufgaben und Modalitäten eines Roboters trainiert wurde – das Sprachmodell wird also in Form eines Roboters "verkörpert".

Das Forschungspapier zu PaLM-E beschreibt ein Anwendungsbeispiel. Nach dem Befehl "Bring mir Reis-Chips aus der Schublade" fährt eine mit Greifarm und Kamera ausgestattete weiße Plattform durch einen Raum. Diese stoppt bei der Schublade. Danach fährt der Greifarm aus, zieht die Schublade auf, umgreift eine Packung Reis-Chips und legt sie auf die Tischfläche. Laut Google sollen sämtliche Navigationsanweisungen vom Sprachmodell selbst stammen.

Anders als der Vorgänger PaLM, der lediglich mit textbasierten Daten trainiert wurde, bezieht PaLM-E Trainingsdaten von Texten, Bildern und Daten von weiterer Robotersensorik. Der Input für PaLM-E sind "multimodale Sätze", eine Kombination aus Text- und Bilddaten, die etwa aus der Kamera des Roboters stammen. Ein multimodaler Satz wäre zum Beispiel: "Was ist zwischen <img 1> und <img 2> passiert?", wobei das "img" für eine Bilddatei steht. Darauf liefert das schon trainierte visuelle Sprachmodell eine Antwort. Ist der Input wiederum ein Befehl, zum Beispiel "Bring mir Reis-Chips aus der Schublade" kann das Sprachmodell eine Reihe von Entscheidungen generieren, die den Roboter durch den Raum navigieren und ihn Aktionen ausführen lassen.

Laut Google erzielt PaLM-E die höchste momentan gemeldete Punktzahl in OK-VQA, einem Benchmark, der die Genauigkeit von einem Sprachmodell testet, indem es 14.005 offene Fragen zu Bilddateien stellt. PaLM-E ist anwendbar auf mehrere Robotertypen und mehrere Modalitäten, etwa die Bilddaten einer Kamera oder die Positionierung eines montierten Greifarms. Die Künstliche Intelligenz besitzt visuelle und sprachliche Fähigkeiten: Bilder beschriften, Gegenstände in einem Raum entdecken, aber auch Gedichte zitieren.

Mittels Sprachmodell versuchen Robotik-Forscher Systeme zu bauen, die nicht auf aufgabenspezifisches Training angewiesen sind. Das Resultat wären Roboter, die durch unstrukturierte und sich ändernde Umgebungen navigieren können, etwa um Alltagsaufgaben wie Putzen zu erledigen.

Ein solcher Alltags-Roboter erfordert "Positive Knowledge Transfer": die Eigenschaft, Fähigkeiten und Wissen von einer erlernten Aufgabe auf eine unbekannte Aufgabe anzuwenden. Das, was erlernt wurde, erleichtert also das Erlernen neuer Fähigkeiten. Die Fähigkeiten, die ein Musiker beim Spielen einer Gitarre aufbaut, erleichtern es ihm in der Zukunft, das Spielen einer Violine zu erlernen. Laut dem Forschungspapier zeige PaLM-E diese Eigenschaft: "PaLM-E, wenn es mit verschiedenen Aufgaben und Datensätzen gleichzeitig trainiert wird, führt zu einer bedeutsam höheren Leistung im Vergleich zu Modellen, die separat auf einzelne Aufgaben trainiert wurden".

Außerdem zeige PaLM-E "emergent capabilities", das sind Fähigkeiten, die möglicherweise nicht aus den Beziehungen und Mustern in den vorherigen Trainingsdaten stammen. Zum Beispiel "die Fähigkeit, über mehrere Bilder hinweg eine Schlussfolgerung zu treffen, obwohl das Modell nur mit Prompts trainiert wird, die ein Einzelbild zeigen". (szo)