KI-basierte Roboter lernen besser durch Audiodaten

KI-basierte Roboter können auch mit Audioinformationen trainiert werden. Das verbessert die Leistung des Roboters, meinen Forscher der Stanford University.

In Pocket speichern vorlesen Druckansicht
Mit dem ManiWAV-Gerät können perfekte Audiotrainingsdaten aufgezeichnet werden.

Mit dem ManiWAV-Gerät können perfekte Video- und Audioinformationen für KI-Robotertrainings aufgezeichnet werden.

(Bild: Zeyi Lucia Liu (Screenshot))

Lesezeit: 3 Min.

Ein Wissenschaftsteam der Stanford University und des Toyota Research Institute hat festgestellt, dass die Trainingsleistung KI-basierter Roboter höher ausfällt, wenn neben Videodaten auch Audiodaten verwendet werden. Die Geschwindigkeit und Genauigkeit der erlernten Fähigkeiten des Roboters würden dadurch erheblich verbessert.

Beim Training KI-basierter Roboter werden größere Mengen an visuellen Informationen verwendet, um dem Roboter bestimmte Fähigkeiten zu vermitteln. Audiodaten werden dazu in der Regel nicht herangezogen, sondern einfach ignoriert. Die Forscher haben sich in der wissenschaftlichen Studie "ManiWAV: Learning Robot Manipulation from In-the-Wild Audio-Visual Data", die im Preprint auf Arxiv veröffentlicht ist, gefragt, ob und inwieweit Audioinformationen das Trainingsergebnis verbessern können.

Die Roboter erhalten dazu beim Training Audioinformationen, die mit einem "Ohr-in-der-Hand"-Datenerfassungsgerät, ManiWAV genannt, aufgenommen werden. Das Gerät kann menschliche Demonstrationen mit einem Mikrofon und einer Kamera erfassen. Audio und Video sind dabei strikt synchron. Über eine Schnittstelle zum Erlernen von Robotermanipulationsstrategien werden die Informationen dann beim Training an den Roboter übertragen.

Um ihre Annahmen zu verifizieren, führten die Forscher vier Experimente mit einem Roboter durch, bei denen er eine neue Fertigkeit erlernen sollte. Im ersten Experiment soll der Roboter lernen, einen Bagel in einer Bratpfanne mit einem Pfannenwender umzudrehen. In einem weiteren Experiment soll der Roboter so trainiert werden, dass er mit einem Radiergummi ein Bild auf einer weißen Tafel entfernen kann. Im dritten Experiment soll er lernen, Würfel von einem Becher in einen anderen zu schütten. Im letzten Experiment soll dem Roboter antrainiert werden, aus drei verschieden großen Klebestreifen die richtige Größe auswählen zu können, um damit ein Kabel mit einem Kunststoffstreifen zu verbinden.

In allen vier Fällen verwendeten die Forscher denselben Roboter, der aus einem mehrachsigen Arm und einem Zwei-Finger-Greifer besteht. Die zu erlernenden Tätigkeiten wurden mit dem ManiWAV-Gerät aufgezeichnet, das Audio- und Videoinformationen liefert. Außerdem wurden die Tätigkeiten ausschließlich per Video aufgenommen. Mit dem Material trainierten sie den Roboter. Dabei stellten die Forscher fest, dass sich die Geschwindigkeit und Genauigkeit bei einigen vom Roboter durchgeführten Aufgaben verbesserte, bei denen zum Training zusätzlich Audioinformationen herangezogen worden waren.

Das galt für all diejenigen Aufgaben, in denen sich Audioinformationen als hilfreich herausstellten, wie etwa beim Umschütten der Würfel. Der Roboter konnte etwa durch das Geräusch erkennen, ob sich noch Würfel im Becher befanden. Bei der Aufgabe, ein Bild wegzuradieren, konnte der Roboter das Geräusch des Radiergummis dazu nutzen, um den richtigen Anpressdruck zu realisieren.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externes YouTube-Video (Google Ireland Limited) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Google Ireland Limited) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Weniger hilfreich erwiesen sich die Audioinformationen beim Umdrehen des Bagels. Aus dem Geräusch konnte der Roboter nicht schließen, ob der Bagel tatsächlich gewendet worden war oder nicht.

Die Wissenschaftler schließen daraus, dass Audiodaten in KI-Trainingsmaterial für Roboter nicht in allen Fällen für eine verbesserte Leistung sorgen. Für bestimmte Trainingsszenarien kann es jedoch von Vorteil sein, Audioinformationen zusätzlich zu einem Video zu verwenden.

(olb)