Robotik-Konferenz RSS: Roboter können sehr kreativ sein

Was bringt die Robotik besser voran? Lernverfahren oder raffinierte Modelle? Der passende Algorithmus ermöglicht laut Deepmind-Forschern das "Meta-Lernen".

38

Martin Riedmiller zeigte, dass Roboter auch "kreative Lösungen" erarbeiten können.

(Bild: deepmind.com)

27.06.2019, 07:50 Uhr

Lesezeit: 4 Min.

Von

Hans-Arthur Marsiske

Robotik-Konferenz RSS: Roboter können sehr kreativ sein

In seiner Keynote bei der Konferenz RSS (Robotics: Science and Systems) zitierte Martin Riedmiller zunächst das Motto seines Arbeitgebers DeepMind: "Löse das Problem der Intelligenz. Und dann nutze die Lösung, um alle anderen Probleme zu lösen." Es sei das erklärte Ziel der Firma, eine allgemeine Künstliche Intelligenz zu entwickeln, die nicht nur auf spezifische Anwendungsgebiete beschränkt sei.

Kinder lernten ohne vorgegebene Modelle, erläuterte Riedmiller, indem sie mit ihren Sinnen und Gliedmaßen die Umwelt erkundeten und aus den dabei bewirkten Effekten zu einer Optimierung ihres Verhaltens kämen. Auf die gleiche Weise, ohne vorgegebenes Wissen, sollen auch Roboter lernen. Hierfür gebe es schon seit Langem erprobte Methoden des Verstärkungslernens, bei denen es darum geht, Belohnungen für erwünschtes Verhalten zu optimieren. Sie seien allerdings umso schwieriger umzusetzen, je höher die Zahl der dabei zu beachtenden Freiheitsgrade sei. Auch kontinuierliche Übergänge zwischen Zuständen und zwischen Aktionen seien eine Herausforderung.

Kostbare Daten

Eine effiziente Nutzung der Daten sei daher der Schlüssel, um Roboter ohne Vorgaben komplexe Verhalten lernen zu lassen. "Daten sind kostbar und Daten sind wahr", sagte Riedmiller. Um diesen Schatz möglichst umfassend zu bergen, käme es darauf an, die "richtigen" Übergänge zwischen den Zuständen des Systems zu sammeln. Dieser Ansatz, die Zustandsübergänge zu speichern und wiederzuverwenden, habe zum Algorithmus NFQ (Neural Fitted Q Algorithm) geführt, mit dessen Hilfe ein autonomes Auto innerhalb von 20 Minuten das Fahren gelernt habe.

Beim RoboCup haben diese Lernverfahren dem von Riedmiller gegründeten Team Brainstormers 2D erlaubt, mit realen Robotern an die Erfolge in der Simulationsliga anzuknüpfen: Während die simulierten Spieler problemlos zigtausend Situationen durchspielen konnten, um ihr Verhalten zu optimieren, konnte dieser Trainingsaufwand für die realen Roboter auf wenige hundert Lernschritte reduziert werden – und verhalf dem Team auch in dieser Liga zum Weltmeistertitel. "Das gelernte Verhalten war besser als alles, was von Hand kodiert werden konnte", sagte Riedmiller.

Belohnungsvektoren

Die Weiterentwicklung dieser Verfahren hat jetzt zum Algorithmus Scheduled Auxiliary Control (SAC-X) geführt, den zuvor schon Devin Schwab auf der RSS vorgestellt hatte. Statt mit einzelnen Belohnungen arbeite dieser Algorithmus mit Belohnungsvektoren, sagte Riedmiller.

Der Weg zu externen Belohnungen werde über interne Belohnungen für das Erlernen von Basisfertigkeiten geebnet und führe zum Meta-Lernen: Der Roboter lerne das Lernen selbst. Das erlernte Verhalten lasse sich dadurch leichter übertragen, sowohl auf andere Roboter als auch auf andere Aufgaben.

Kreative Lösungen

Der darauf aufbauende Algorithmus RHPO (Regularised Hierarchical Policies) wiederum stößt in noch ganz andere Sphären vor. Er erhöht nicht nur die Effizienz des Lernprozesses: So konnte die Zeit, die ein Roboter brauchte, um das Stapeln von Würfeln zu erlernen, von mehr als acht Wochen auf neun Stunden reduziert werden. Der Roboter entwickelte dabei auch Verhaltensweisen, die sich kein Programmierer hätte ausdenken können.

Riedmiller zeigte in einem Video, wie der Roboter mit einem Zweifingergreifer, der keine Manipulation in der Hand erlaubt, Techniken entwickelte, um Legosteine auf den Kopf zu drehen. Ob ihn das ähnlich gefreut hat, wie die selbstständige Entdeckung des Doppelpasses durch seine virtuellen Fußballer vor 18 Jahren? Auf jeden Fall war es eine willkommene Bestätigung seines Forschungsansatzes: "Je weniger A-priori-Wissen wir in das System eingeben, desto kreativere Lösungen bekommen wir heraus", sagte Riedmiller.

Siehe dazu auch: