WHIRL: Roboter lernt selbstständig aus Videos

Einfache Tätigkeiten sollen Roboter mit einer neuen Methode aus Videos erlernen können. Sie analysieren, wie Menschen einfache Haushaltsarbeiten ausführen.

In Pocket speichern vorlesen Druckansicht 10 Kommentare lesen

Ein Roboter hat das Öffnen einer Schranktür aus einem Video gelernt.

(Bild: Deepak Pathak (Screenshot))

Lesezeit: 4 Min.

Roboter können Tätigkeiten im Haushalt selbst erlernen, indem sie Menschen dabei beobachten und sie dann nachahmen. Forscher des Robotics Institutes (RI) der Carnegie Mellon University haben eine Lernmethode für Roboter mit der Bezeichnung WHIRL (In the Wild Human-Imitates Robot Learning) entwickelt. Roboter können mithilfe dieser Methode menschliche Interaktionen aus Videos analysieren und dann selbst bestimmen, wie sie die Aufgaben erledigen.

Das soll nach Angaben der Forscher mit WHIRL besser funktionieren als durch herkömmliches Nachahmungs- oder Verstärkungslernen. Auch sei für WHIRL keine strukturierte Umgebung notwendig. "Nachahmung ist eine großartige Möglichkeit, um zu lernen", sagt Shikhar Bahl, Doktorand am Robotics Institute (RI). "Dass Roboter tatsächlich durch die direkte Beobachtung von Menschen lernen, ist ein ungelöstes Problem auf diesem Gebiet, aber diese Arbeit ist ein wichtiger Schritt, um diese Fähigkeit zu ermöglichen", erläutert er die wissenschaftliche Motivation, WHIRL zu entwickeln.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externes YouTube-Video (Google Ireland Limited) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Google Ireland Limited) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

In dem auf der Roboterkonferenz "Robotics: Science and Systems" vorgestellten Paper "Human-to-Robot Imitation in the Wild" erläutern die Wissenschaftler, wie ein Roboter von Menschen lernen kann. Dazu analysiert der Roboter Videos, in denen Menschen einfache Haushaltsaufgaben durchführen, wie etwa das Öffnen eines Kühlschranks, einer Schublade und das Betätigen eines Wasserhahns. Aus den Videos extrahiert er aus den visuellen Informationen Aktionsprimitive, wie etwa die Greifposition, die Greiforientierung und Greifkraft sowie Wegpunkte der Bewegungsbahn.

Die Wissenschaftler verwenden dabei herkömmliche 3D-Computer-Vision-Modelle. Diese Modelle weisen jedoch Ungenauigkeiten auf, sodass ein Roboter dann in der realen Welt zwar dicht dran ist, die Aufgabe umzusetzen, aber trotzdem scheitern wird. Damit der Roboter die Feinheiten lernen kann, die notwendig sind, um eine Aufgabe präzise auszuführen, vergleicht er Videos der menschlichen und der eigenen Ausführung miteinander. Dabei werden die Akteure (Mensch und Roboter) aus den Videos entfernt, um die Ausführung der Aufgaben besser miteinander vergleichen zu können.

Der Roboter verbessert nach dem Vergleich die Aktionsprimitive, um das darauffolgende Ergebnis erneut mit der menschlichen Aufgabenausführung zu vergleichen. Das erfolgt automatisch, ohne Eingriff des Menschen und solange, bis die Aufgabe richtig ausgeführt wird. Die Forscher probierten WHIRL mit Videos von 20 verschiedenen Aufgaben im Haushalt aus. Dabei benötigte der Roboter zwischen einer und zwei Stunden, um eine Aufgabe zu erlernen und sicher durchführen zu können.

WHIRL hat nach Angaben der Forscher im Vergleich zu Lernmodellen per Nachahmung und Verstärkungslernen (Reinforcement Learning) einige Vorteile. Beim Nachahmungslernen steuert ein Mensch den Roboter und bringt ihm manuell bei, wie er sich bei einer Aufgabe zu bewegen hat. Beim Verstärkungslernen wird der Roboter anhand von mehreren Millionen von Beispielen in Simulationen trainiert, um dann das Training an die reale Welt anzupassen. Die beiden Lernmodelle funktionieren zwar in strukturierten Umgebungen, lassen sich aber nur schwer skalieren. Mit WHIRL können Roboter dagegen von prinzipiell jedem Video einer menschlichen Aktion in realistischen Umgebungen lernen. Die Wissenschaftler wollen nun WHIRL weiter verbessern. Ihr Ziel: WHIRL soll durch das Anschauen von Videos mit menschlichen Interaktionen auf Youtube und Flick trainiert werden.

"Diese Arbeit stellt eine Möglichkeit dar, Roboter in das Haus zu bringen", sagt Deepak Pathak vom RI. "Anstatt darauf zu warten, dass die Roboter programmiert oder trainiert werden, um verschiedene Aufgaben erfolgreich zu erledigen, bevor sie in den Häusern der Menschen eingesetzt werden, ermöglicht uns diese Technik, die Roboter einzusetzen und sie lernen zu lassen, wie sie Aufgaben erledigen, während sie sich an ihre Umgebung anpassen und sich allein durch Beobachten verbessern."

(olb)