DeepMind: KI lernt Grundlagen der Physik aus Videos

Das Team der Google-Tochter DeepMind hat eine KI vorgestellt, die ein intuitives Verständnis von Physik erlernt haben soll.

In Pocket speichern vorlesen Druckansicht 19 Kommentare lesen
Digital,Contents,Concept.,Social,Networking,Service.,Streaming,Video.,Nft.,Non-fungible

(Bild: metamorworks / Shutterstock.com)

Lesezeit: 6 Min.

Ein Kleinkind lernt verblüffend schnell, wie es neue Erkenntnisse über die Welt gewinnt: Durch Beobachtung, Versuch und Irrtum. Im Alter von etwa einem Jahr sind Babys beispielsweise in der Lage, die sogenannte "Objektpermanenz" zu begreifen – also die Tatsache, dass Dinge nicht einfach erscheinen oder verschwinden. Trotz aller Fortschritte im maschinellen Lernen tun sich KIs noch immer sehr schwer damit – bis jetzt: Forschende der Google-Tochter DeepMind haben eine KI vorgestellt, die ein intuitives Verständnis von Physik erlernt haben soll. Um zu zeigen, dass die KI diese Konzepte tatsächlich verwendet, nutzten die Forschenden Ansätze aus der Entwicklungspsychologie. Das zugehörige Paper erscheint im Fachjournal Nature Human Behaviour.

Beim Trainieren des Modells zeigten die Forschenden ihrem Plato genannten Modell Videos aus einem synthetischen, selbst erstellten Datensatz, in denen das physikalische Verhalten von Objekten zu sehen war: Bälle rollten und hüpften, kollidierten mit anderen Objekten, waren zum Teil zeitweise durch andere Objekte verdeckt, Objekte prallten auf den Boden auf. Dadurch sollte Plato fünf physikalische Grundkonzepte kennenlernen: Dass physikalische Objekte nicht plötzlich auftauchen oder verschwinden, dass sie einen Raum einnehmen, den kein anderes Objekt zur selben Zeit einnehmen kann, ihre Form oder Größe nicht unvermittelt verändern und bei Bewegungen in der Regel auch nicht unvermittelt Richtung und Geschwindigkeit ändern.

Technisch betrachtet besteht das Plato genannte Modell aus bekannten Komponenten: Ein Autoencoder lernt aus den Video-Bildern eine interne Repräsentation – im Unterschied zu anderen Modellen, die charakteristische Merkmale des gesamten Frames lernen, erzwangen die Forschenden in diesem Fall allerdings durch Segmentierungsmasken, dass das Modell interne Repräsentationen einzelner Objekte bildete. Eine zweite Stufe des Modells, ein sogenannter Long-Short-Term-Memory, bildet aus dem beobachteten Verhalten des Objekts dann Hypothesen über dessen Verhalten in der Zukunft.

Um zu testen, ob das Modell diese Modelle gelernt hat, zeigten die Forschenden der KI anschließend Videosequenzen, in denen jeweils eines dieser physikalischen Grundkonzepte verletzt wird. Kleine Kinder reagieren auf solche verblüffenden Erfahrungen mit erhöhter Aufmerksamkeit, weil ihre Erwartung darüber, was als Nächstes passieren wird, verletzt wird. Der 1896 geborene Entwicklungspsychologe Jean Piaget hatte als erster eine Hypothese darüber formuliert, warum das eigentlich so ist: Demnach sind Aktionen und Sinneswahrnehmung bei Menschen zu "sensomotorischen Schleifen" verbunden: Jede Aktion ist mit einer internen Vorhersage verbunden, was als Nächstes passieren wird, die dann mit dem nachfolgenden Sinneseindruck verglichen wird. Weichen Vorhersage und Sinnesreiz voneinander ab, löst das Aufmerksamkeit und einen Lernprozess aus.

Die Forschenden von Deepmind nutzen nun dieses "violation-of-expectation Paradigm" aus der Entwicklungspsychologie, indem sie die interne Vorhersage des Modells mit den externen Beobachtungen im Experiment verglichen. Tatsächlich erzeugten die Testfälle, in denen sich die Objekte "unphysikalisch" verhielten, einen großen Vorhersagefehler. Und zwar nach einer kurzen Trainingsphase – nur 28 Beispiele – und auch dann, wenn im Test Objekte verwendet wurden, die im Trainingsdatensatz nicht vorkamen.

Andere Modelle, die Luis Piloto von Deepmind und Kollegen zum Vergleich heranzogen, und die nicht auf das Verhalten einzelner Objekte trainiert waren, zeigten im Unterschied dazu keine entsprechenden Vorhersagefehler. Laut Piloto könnte das aber daran liegen, dass diese Modelle "viel mehr Details berücksichtigen müssen. Welche Farbe die Objekte zum Beispiel haben, ob sie groß sind oder klein. Und bei all diesen Details müssen sie erst mal lernen, ob die wichtig sind oder nicht. Und dazu braucht man viel mehr Beispiele". Die Konzentration des Modells auf diskrete Objekte ist laut den Forschenden daher ein wichtiger Schritt.

Ob das Modell damit wirklich so etwas wie ein intuitives Verständnis gelernt hat, ist allerdings eine Frage der Interpretation. Wie schwierig die sein kann, zeigt beispielsweise die Forschung zur Intelligenzleistung von Tieren. So prägte der britische Zoologe Antone Martinho-Truswell vom Magdalen College in Oxford beispielsweise frisch geschlüpfte Entenküken darauf, Objekten wie Kugeln oder Quadern, die von Motoren bewegt wurden, zu folgen – beispielsweise zwei blauen Kugeln. Anschließend ließen die Forschenden die Tiere zwischen zwei Kugeln mit verschiedenen Farben und zwei Gegenständen mit der gleichen Form, aber fremden Farben wählen. Das Ergebnis: Die Entchen wählten die identischen Formen.

"Wir wollten zeigen, dass jedes System, das beliebige Gegenstände identifizieren kann, auch dazu in der Lage ist, abstrakte Kategorien zu lernen", sagt Martinho-Truswell. "Das bedeutet nicht, dass die Enten ein abstraktes Konzept gelernt haben. Alles, was wir sagen können, ist, dass sie sich so verhalten, als ob sie ein abstraktes Konzept gelernt hätten." Tatsächlich sind die Forschenden von Deepmind bei der Interpretation ihrer Ergebnisse denn auch zurückhaltend. "Unser Modell beantwortet nicht direkt Fragen aus der Entwicklungspsychologie", sagt Peter Battaglia von Deepmind, der ebenfalls an der Studie beteiligt war. "Vielleicht ist unser Modell zu stark vereinfacht, aber wir hoffen, dass es ein Ausgangspunkt sein kann, um Hypothesen über das menschliche Lernen zu testen".

Plato ist jedoch nicht die erste KI, die in der Lage ist, grundlegende physikalische Gesetze oder auch Ursache-Wirkungs-Zusammenhänge zu lernen. Seit einigen Jahren forschen weltweit Gruppen mit verschiedensten Methoden daran, KI-Systemen "Causal Inference", das Erkennen von Ursache und Wirkung beizubringen. Und ein zentraler Bestandteil all dieser Techniken ist das Testen der gelernten Modelle mit einer internen Vorhersage. Zudem arbeiten auch Robotiker in der Fachdisziplin der "Developmental Robotics" daran, über sensomotorische Schleifen Roboter lernen zu lassen wie kleine Kinder.

(wst)