Google DeepMind: Zwei Gemini-KI-Modelle für intelligentere nützliche Roboter

Die beiden KI-Modelle Gemini Robotics und Gemini Robotics-ER sollen Robotern ein besseres Verständnis von ihrer Umwelt verschaffen und intelligenter machen.

(Bild: Google DeepMind)

13.03.2025, 09:12 Uhr

Lesezeit: 3 Min.

Von

Oliver Bünte

Google DeepMind hat zwei KI-Modelle für Roboter vorgestellt, wie das KI-Unternehmen am Mittwoch bekannt gab. Das sind Gemini Robotics, ein auf Gemini 2.0 basierendes KI-Modell für die Robotik sowie Gemini Robotics-ER, ein KI-Modell, das Robotern ein erweitertes räumliches Verständnis verschafft. Die KI-Modelle sollen Roboter dazu befähigen, auch solche Aufgaben präzise lösen zu können, die ihnen nicht antrainiert worden sind.

Gemini Robotics für allgemeines Weltverständnis

Gemini Robotics basiert auf Googles allgemeinem KI-Modell Gemini 2.0. Es baut auf dem multimodalen Weltverständnis von Gemini auf und überträgt es auf die reale Welt. Dabei werden physische Aktionen als neue Modalität hinzugefügt.

Konkret bedeutet das unter anderem, dass Roboter etwa eine deutlich breitere Palette an natürlichsprachlichen Befehlen verstehen und darauf reagieren können, als es bei früheren Modellen der Fall war.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externes YouTube-Video (Google Ireland Limited) geladen.

YouTube-Video immer laden

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Google Ireland Limited) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Das Video zeigt Anwendungen von Gemini Robotics.

Zudem kann der Roboter sein Verhalten an die Eingaben des Benutzers anpassen. Roboter können so ihre Umgebung ständig überwachen, Veränderungen feststellen und ihre eigenen Handlungen daran ausrichten. Gemini Robotics nutzt dabei das allgemeine Weltverständnis von Gemini, um neue Situationen verallgemeinern zu können. Das hilft dem Roboter, auch Aufgaben zu lösen, für die er nicht trainiert worden ist. Er kann etwa mit neuen Objekten umgehen und mit neuen Anweisungen in bis dahin unbekannten Umgebungen umgehen. Das soll es dem Menschen ermöglichen, den Roboter besser steuern und kontrollieren zu können. Das kann beispielsweise in Industrieumgebungen als auch in häuslichen Umgebungen der Fall sein, je nachdem, wo der Roboter eingesetzt werden soll.

Neben der Anpassungsfähigkeit, dem Verständnis für Veränderung in der Umgebung und der Fähigkeit darauf reagieren zu können, muss ein Roboter auch eine gewisse Geschicklichkeit aufweisen. Gemini Robotics verschafft einem Roboter die Möglichkeit, Objekte präzise manipulieren zu können, um selbst sehr komplexe, mehrstufige Aufgaben zu bewältigen.

Das KI-Modell Gemini Robotics soll auf unterschiedlichen Robotern verschiedener Bauformen laufen können. Das kann etwa ein zweiarmiger Roboter wie Googles eigene zweiarmige Roboterplattform ALOHA 2 sein, aber auch humanoide Roboter wie etwa Apptroniks Apollo. Auf komplexeren Robotersystemen muss Gemini Robotics jedoch etwas angepasst werden, damit die Roboter dann auch schwierigere Aufgaben erfüllen können.

Gemini Robotics-ER für räumliches Verständnis

Das KI-Modell Gemini Robotics-ER (ER – Embodied Reasoning) verbessert das Weltverständnis und vor allem das räumliche Verständnis von Robotern. Das Modell verbindet das räumliche Verständnis mit der Steuerung des Roboters. So kann er etwa auf dem Tisch liegende Objekte erkennen und weiß zugleich, wo sie liegen. Daraus kann der Roboter ableiten, wie er das Objekt greifen muss, wie er seinen Arm dazu am besten bewegt und ob dies sicher erfolgen kann.

Videos by heise

Google DeepMind arbeitet bereits mit verschiedenen Robotikunternehmen zusammen. An vorderster Stelle steht Apptronik mit seinem humanoiden Roboter Apollo. Agile Robotics, Agility Robotics, Boston Dynamics und Enchanted Tools gehören zu den sogenannten "vertrauenswürdigen Testern". Sie erhalten Zugang zu Gemini Robotics-ER.