Was Roboter von Babys lernen können

Dank Maschinenlernen können Computer heutzutage relativ sicher Objekte auf Bildern erkennen, beschreiben und kategorisieren. Über die physikalischen Zusammenhänge dahinter aber wissen sie nichts. Das soll sich jetzt ändern.

08.09.2016, 06:00 Uhr

Lesezeit: 4 Min.

MIT Technology Review

Von

Will Knight

Kinder lernen ziemlich schnell, was passiert, wenn sie zum Beispiel einen mit Saft gefüllten Becher umdrehen. Roboter dagegen verstehen erst einmal überhaupt nichts. Forscher am Allen Institute for Artificial Intelligence (Ai2) in Seattle wollen das ändern: Sie haben ein Computer-Programm entwickelt, das Maschinen beibringen soll, wie von einer Kamera erfasste Objekte sich am wahrscheinlichsten verhalten werden. Dies könnte ihnen dabei helfen, Fehler zu vermeiden, so dass zum Beispiel autonome Autos besser mit ungewöhnlichen Situationen zurechtkommen würden.

Das von Robert Mottaghi und Kollegen entwickelte System zieht seine Schlüsse mit Hilfe einer Kombination aus Maschinenlernen und 3D-Modellierung. Mittels einer 3D-Physik-Engine machten sie aus mehr als 10.000 Bildern Szenen in einem vereinfachten Format. Diese 3D-Modelle wurden von Helfern auf der Crowdsourcing-Plattform Mechanical Turk von Amazon erstellt.

Deep Learning: Welche Kräfte sind am Werk?

Die Bilder und ihre 3D-Repräsentationen wurden dann in einen Computer mit einem großen neuralen Netz für "Deep Learning" eingespeist, das auf dieser Grundlage lernte, den einzelnen Szenen einfache Kräfte und Bewegungen zuzuordnen. Später konnte das System dadurch Vorschläge dazu machen, welche Kräfte am Werk sind, wenn es neue Bilder zu sehen bekam.

Noch arbeitet es nicht fehlerfrei, aber in den meisten Fällen kommt der Computer zu vernünftigen Schlussfolgerungen. Bei einem Bild von einem Hefter auf einem Schreibtisch zum Beispiel kann er vorhersagen, dass dieser vom Tisch rutschen und dann abrupt auf den Boden fallen könnte. Bei einem Bild mit einem Couchtisch und einem Sofa weiß er, dass man den Tisch auf dem Boden verschieben kann, bis er das Sofa berührt.

"Das Ziel ist, das Kräftespiel der Physik-Engine zu erlernen", erklärt Mottaghi. "Alle Schlussfolgerungen sollen allein anhand der gezeigten Bilder erfolgen."

Lernprozess für Roboter

Das Konzept könnte besonders nützlich sein für Roboter, die eine Szene schnell interpretieren und entsprechend handeln sollen. Selbst eine Maschine mit einem 3D-Scanner muss häufig die Physik hinter einer erfassten Szene verstehen, und es wäre unpraktisch, wenn er stets alles mittels Versuch und Irrtum herausfinden müsste. "Die Datensammlung für so etwas ist sehr schwierig", sagt Mottaghi. "Wenn ich meinen Roboter in einen Laden mitnehme, kann er dort nicht Objekte herumschubsen und Daten darüber sammeln. Das wäre sehr teuer."

Das System ist Teil eines umfassenderen Projekts namens Plato, das darauf abzielt, Maschinen visuelle Intelligenz zu verleihen, die über einfache Objekt-Erkennung und -Kategorisierung hinausgeht. Bei einem weiteren Teilprojekt geht es darum, Computern beizubringen, bereits wirkende physische Kräfte zu erkennen, zum Beispiel, wie ein Skifahrer einen Berg hinabfährt oder wie ein Fußball nach einem Schuss durch die Luft fliegt.

Fortschritte bei Deep Learning

Computer sind in den letzten Jahren dank Fortschritten bei Deep Learning, leistungsfähigerer Hardware und großen gekennzeichneten Bildersammlungen deutlich besser darin geworden, Bilder zu analysieren. Nachdem sie an vielen Beispielen geschult wurden, können sie mittlerweile Szenen beschreiben oder Fragen dazu beantworten. Trotzdem ist ihr Verständnis davon, was auf einem Bild geschieht, immer noch sehr oberflächlich. Um tiefer vorzudringen, müssen Computer auch verstehen, wie die physische Welt funktioniert.

Brendan Lake, ein Forscher an der New York University, der auf die Nachbildung von menschlichen Kognitionsfähigkeiten spezialisiert ist, bezeichnet die Arbeit des Ai2 als wichtigen Schritt in diese Richtung.

"Um eine Szene wirklich zu verstehen, braucht man mehr als bloße Objekt-Erkennung", sagt er. "Wenn Menschen einen Schnappschuss von einer Szene sehen, können sie eine Geschichte dazu erzählen: was ist zu sehen, warum ist es dort, und was passiert als Nächstes. Ein Verständnis von Physik ist entscheidend dafür."

Die Fähigkeit, Physik zu verstehen

Bei der menschlichen Wahrnehmung ist laut Lake allerdings zusätzlich noch reichlich logisches Denken im Spiel, das bei Robotik und maschinellem Sehen noch eine Weile auf sich warten lassen dürfte. "Es gibt zwar spannende Fortschritte, aber der menschlichen Fähigkeit, Physik zu verstehen, sind Maschinen noch nicht sehr nah gekommen", sagt er. "Menschen können eine viel größere Bandbreite an physikalischen Ereignissen verstehen und auch bei völlig unbekannten Szenen präzise Vorhersagen treffen."

(sma)