Roboter lernen im Turbo-Tempo

Ein japanisches Start-up will Industrierobotern schneller beibringen, was sie zu tun haben. Dazu dient eine Kombination aus Beobachtung und viel Ausprobieren.

2

11.12.2015, 06:00 Uhr

Lesezeit: 5 Min.

MIT Technology Review

Von

Mark Harris

Ein japanisches Start-up will Industrierobotern schneller beibringen, was sie zu tun haben. Dazu dient eine Kombination aus Beobachtung und viel Ausprobieren.

Osaro, ein neues Start-Up im Bereich Künstliche Intelligenz (KI), will Industrieroboter neue Aufgaben so schnell lernen lassen, wie DeepMind Technologies Programmen das Spielen von Atari-Games beigebracht hat.

DeepMind hatte im Dezember 2013 eine KI-Software präsentiert, die innerhalb von Stunden sieben Atari-2600-Spiele meisterhaft erlernte und einige der besten menschlichen Spieler darin schlug. Rasch schnappte sich Google das Londoner Unternehmen und seine Technologie für tief verstärkendes Lernen, angeblich für einen Kaufpreis von 400 Millionen US-Dollar.

Mit 3,3 Millionen Dollar Finanzierung von Investoren wie Peter Thiel und Jerry Yang tritt jetzt Osaro an. Das Start-up will tief verstärkendes Lernen auf eine neue Ebene gebracht haben.

Tief verstärkendes Lernen ist eine Weiterentwicklung von "Deep Learning", bei dem mehrere Schichten von neuronalen Netzen Massen an Rohdaten effizient verarbeiten und organisieren. Deep Learning bildet inzwischen die Grundlage für die besten Systeme für Gesichtserkennung, Video-Klassifizierung sowie Text- und Spracherkennung von Google, Microsoft und IBM Watson.

Bei tief verstärkendem Lernen kommt noch Steuerung hinzu: Die Fähigkeit von Deep Learning, Eingaben wie zum Beispiel Video-Bilder von einem Breakout- oder Pong-Spiel korrekt zu klassifizieren, wird dafür genutzt, einen hohen Punktestand anzustreben. Die Systeme trainieren sich selbst darauf, indem sie eine Aufgabe immer wieder wiederholen, bis sie ihr Ziel erreichen. "Die Macht von tiefer Verstärkung liegt darin, dass man Verhaltensweisen entdecken kann, auf die ein Mensch nie gekommen wäre und die er nie von Hand programmiert hätte", sagt Derik Pridmore, President und Chief Operating Officer von Osaro.

Ein neues KI-System von Null auf zu trainieren, kann jedoch lange dauern. Die Atari-Demo von DeepMind brauchte zig Millionen Video-Bilder, entsprechend vielen tausend Partien. Bei rein digitalen Aufgaben, die sich auf Supercomputern in Stunden oder nur Minuten verkürzen lassen, ist das kein großes Problem. In der Welt der realen Robotik wird es jedoch schon schwieriger damit.

"Ein Roboter ist ein physisch verkörpertes System, das Zeit braucht, um sich durch den Raum zu bewegen", sagt Pridmore. "Wenn man einem Roboter über tief verstärkendes Lernen von Grund auf beibringen will, wie er eine Tasse greifen soll, würde das buchstäblich Jahre oder noch länger dauern."

Um den Prozess zu beschleunigen, ließ sich Osara von der Art und Weise inspirieren, wie die meisten Menschen neue Aktivitäten erlernen: sie sehen anderen dabei zu. Also hat Osaro ein Programm entwickelt, das Spiele spielt, indem es einen Menschen bei mehreren Partien beobachtet. Die Beobachtungen nutzt es dann als Ausgangspunkt für sein weiteres Training. "Es kopiert keinen Menschen, und man muss nicht sehr präzise oder gut spielen. Man gibt ihm nur eine ungefähre Idee, von dem, was zu tun ist", erklärt Pridmore. Nach seinen Angaben kann das KI-System von Osaro ein Spiel 100-mal so schnell verstehen wie DeepMind. Eine wissenschaftliche Veröffentlichung dazu gibt es aber noch nicht.

Seine erste Anwendung dürfte das System von Osaro in der Produktion mit hohen Stückzahlen finden. Derzeit kann es wochenlange Arbeit von hoch qualifizierten (und bezahlten) Experten erfordern, Fertigungsstraßen neu zu programmieren. Mit Osaro soll es laut Pridmore nur noch etwa eine Woche dauern. Ein weiterer Vorteil sei, dass die Steuersysteme dann auch mit "unsauberen" Bedingungen wie ungleichmäßigen Komponenten oder veränderlichem Licht zurechtzukommen.

Irgendwann, sagt Pridmore, werde sich das Training fast von selbst erledigen. "In Zukunft wird man einem Roboter drei Eimer mit Teilen geben, ihm ein fertiges Produkt zeigen und einfach sagen 'Mach etwas wie das hier'." Bis dahin dürfte es allerdings noch etwas dauern. Als nächsten Schritt will Osaro simulierte Roboter-Demos in einer virtuellen Umgebung namens Gazebo laufen lassen, bevor das System im Jahr 2017 Herstellern von Industrierobotern und ihren Kunden zugänglich gemacht werden soll.

Oren Etzioni, Geschäftsführer am Allen Institute for Artificial Learning, bezeichnet den Ansatz als "technisch spannend" und "verlockend". Ähnlich Pieter Abbeel, Professor für Informatik an der University of California in Berkeley und Ausrichter eines Symposiums zu tief verstärkendem Lernen: "Direkter von menschlichen Demonstrationen und Beratung in allen möglichen Formaten zu lernen, ist intuitiv die richtige Methode, um Systeme schneller lernen zu lassen." Allerdings sei es sehr schwierig, ein System zu entwickeln, das in der Lage ist, eine große Bandbreite an Lernweisen zu nutzen.

Und dann wäre da immer noch die Frage, woran DeepMind zuletzt gearbeitet hat. Wenn sein KI-System schon früher Atari-Spiele innerhalb von Stunden meistern konnte, könnte das Unternehmen in den zwei Jahren hinter den verschlossenen Türen von Google etwas entwickelt haben, was selbst das vom Menschen lernende System von Osaro weit hinter sich lässt.

(sma)