GPT-4o: Open-Source-Roboterarm entfernt verschüttete Flüssigkeit auf Anweisung

Nur etwa 120 US-Dollar gaben zwei Robotiker aus, um einen Open-Source-Roboterarm zu bauen, der auf Sprachanweisung verschüttete Flüssigkeit wegwischen kann.

In Pocket speichern vorlesen Druckansicht 20 Kommentare lesen
Roboterarm vor Notebook putzt verschüttete Flüssigkeit von einem Tisch weg.

Der Open-Source-Roboterarm schnappt sich auf Anweisung einen Schwamm und putzt verschüttete Flüssigkeit weg.

(Bild: Jannik Grothusen (Screenshot))

Lesezeit: 2 Min.

Zwei Robotiker der University of Califonia Berkeley (UC Berkeley) und der Eidgenössisch Technischen Hochschule Zürich (EZH Zürich) haben einem Open-Source-Roboterarm beigebracht, verschüttete Flüssigkeiten von einem Tisch abzuwischen. Innerhalb von lediglich vier Tagen gelang es ihnen, den Roboter mit dem mehrsprachigen multimodalen generativen Transformer GPT-4o von OpenAI anzusteuern. Der Roboter liefert Informationen, was er sieht, bevor er mit der Aufgabe startet. Dann gibt er schrittweise sein Vorgehen per Sprache aus.

Lediglich 120 US-Dollar kostet der Open-Source-Roboterarm im Eigenbau. Verwendet wird ein SO-100-Roboterarm, der von The Robot Studio entwickelt worden ist. Der Roboterarm wurde speziell für Aufgaben wie das Reinigen von verschütteten Flüssigkeiten entwickelt. So kann er mit einem Zwei-Finger-Greifer einen Schwamm aufnehmen. Der Arm benötigt lediglich sechs Servos, eine Adapterplatine für die Steuerung mit einem Rechner sowie einige 3D-gedruckte Teile. Die Teile werden weitgehend aus Kohlefaser gedruckt, um dem Roboterarm die nötige Leichtigkeit und Festigkeit zu geben. Der Zusammenbau soll lediglich 30 Minuten in Anspruch nehmen. Die Pläne für den Roboterarm sind auf GitHub öffentlich verfügbar und können nachgebaut werden.

Um den Roboter per Sprache ansteuern zu können, schufen die beiden Entwickler ein visuelles Sprachmodell mit GPT-4o. Zur Programmierung nutzten die beiden Robotiker das Open-Source-Framwork LangChain AI. Ziel sollte es sein, dass der Roboterarm per Sprache angewiesen werden kann, einen Reinigungsvorgang durchzuführen und zugleich die dafür nötigen Schritte vorab per Sprachausgabe erklären kann. Das soll dem Nutzer eine einfachere Steuerung ermöglichen und ein besseres Verständnis für die Roboteraktionen verschaffen.

Um die Bewegung der Roboterarme kontinuierlich verbessern zu können, griffen die Robotiker auf das Open-Source-Framework Actor-Critic Training von LeRobot zurück. Durch Verstärkungslernen erlernt der Roboterarm effektive Bewegungsmuster, die angepasst und verbessert werden können.

Der Roboterarm trainierte jede einzelne Bewegungsstrategie anhand von rund 100 Demonstrationen über die Handhabung eines Schwamms beim Aufwischen. Er ist mittels einer Kamera in der Lage, verschüttete Flüssigkeit zu lokalisieren und kann sie dann mit einem Schwamm aufwischen. Ein Video davon ist auf X zu sehen.

(olb)