Sprachmodelle wie bei KI-Chatbots: Google trainiert neue Roboter-Generation

Die neuen Roboter von Google benötigen keine komplexen Anweisungen mehr, da sie jetzt auf große Sprachmodelle zugreifen können.

In Pocket speichern vorlesen Druckansicht 5 Kommentare lesen

(Bild: Tatiana Shepeleva/Shutterstock.com)

Lesezeit: 3 Min.
Von
  • Peter Nonhoff-Arps

Die Suche nach hilfreichen Robotern war schon immer eine Herkulesaufgabe, denn ein Roboter, der allgemeine Aufgaben in der Welt erledigen kann, muss in der Lage sein, komplexe, abstrakte Aufgaben in äußerst variablen Umgebungen zu bewältigen – insbesondere in solchen, die er noch nie zuvor gesehen hat.

Robotics Transformer 2 oder RT-2 ist die neue Version dessen, was Google als Vision-Language-Action-Modell (VLA) bezeichnet. RT-2 ist ein Transformer-basiertes Modell, das auf Text und Bilder aus dem Web trainiert wird und Roboteraktionen direkt ausgeben kann. So wie Sprachmodelle anhand von Texten aus dem Web trainiert werden, um allgemeine Ideen und Konzepte zu lernen, lehrt RT-2 Roboter mit Hilfe von Webdaten, visuelle und sprachliche Muster besser zu erkennen, um Anweisungen zu interpretieren und daraus abzuleiten, welche Objekte für die Anfrage am besten geeignet sind.

Im Unterschied zu Chatbots benötigen Roboter jedoch so etwas wie eine "Erdung", sie müssen die Umstände der realen Welt mit ihren Fähigkeiten verknüpfen. Bei ihrer Ausbildung geht es nicht nur darum, beispielsweise alles zu lernen, was man über einen Apfel wissen muss: Wie er wächst, welche physikalischen Eigenschaften er hat oder sogar, dass einer angeblich auf Sir Isaac Newtons Kopf gelandet ist. Ein Roboter muss in der Lage sein, einen Apfel im Kontext zu erkennen, ihn von einer roten Kugel zu unterscheiden, zu verstehen, wie er aussieht, und vor allem wissen, wie er ihn aufnimmt.

Die Forscher testeten RT-2 mit einem Roboterarm in einem Küchenbüro. Sie baten ihn, zu entscheiden, was einen guten improvisierten Hammer ausmacht – es war ein Stein – und ein Getränk auszuwählen, das er einer erschöpften Person geben würde – es war eine Dose Red Bull.

Das neue Modell wurde auf Web- und Robotikdaten trainiert, nutzte Forschungsfortschritte in großen Sprachmodellen wie Googles eigener KI Bard und kombinierte sie mit Roboterdaten, zum Beispiel welche Gelenke bewegt werden sollen. Es soll auch Anweisungen in anderen Sprachen als Englisch verstehen.

Seit Jahren versuchen Forscher, Roboter mit besseren Schlussfolgerungen auszustatten, um Aufgaben in einer realen Umgebungen zu lösen. Roboter brauchen mehr Anweisungen, nur um etwas Einfaches für Menschen zu tun. Zum Beispiel das Aufwischen eines verschütteten Getränks. Menschen wissen instinktiv, was zu tun ist: Nehmen Sie sich ein Gefäß, holen Sie sich etwas zum Aufwischen, werfen Sie das Aufgesammelte weg und seien Sie beim nächsten Mal vorsichtig.

Früher dauerte es lange, einem Roboter etwas beizubringen. Die Forscher mussten die Anweisungen für jede Aufgabe individuell programmieren. Aber mit der Leistungsfähigkeit von VLA-Modellen wie RT-2 können Roboter auf einen größeren Satz an Informationen zugreifen, um daraus abzuleiten, was als nächstes zu tun ist.

Googles erster Vorstoß in Richtung intelligenterer Roboter begann letztes Jahr, als das Unternehmen ankündigte, sein LLM PaLM in der Robotik einzusetzen und das seltsam benannte PaLM-SayCan-System zu entwickeln, um LLM mit physischer Robotik zu integrieren.

Auch Intel investiert derzeit verstärkt in das Roboterunternehmen Figure, das unter dem Projektnamen Figure 01 einen humanoiden Roboter entwickelt.

(pen)