Deep Minds neue KI konstruiert Räume aus Bildern

In Bildern eine Szene zu erkennen gilt als Voraussetzung für KI-basierte Robotik. Eine KI von Deep Mind kann das - allerdings bisher nur in virtuellen Räumen.

In Pocket speichern vorlesen Druckansicht 40 Kommentare lesen
Deep Minds neue KI konsruiert Räume aus Bildern

Je mehr Perspektiven die KI in einem Labyrinth sieht, desto besser kann sie neue Ansichten der Szene berechnen. Aus der erwarteten Änderung der Vorhersagen, falls eine neue Ansicht hinzukommt, kann das System sogar berechnen, welche Bereiche besonders interessant zu erkunden wären.

(Bild: Neural scene representation and rendering, Eslami et al.)

Lesezeit: 3 Min.
Inhaltsverzeichnis

Forscher der Google-Tochter Deep Mind haben mit den Generative Query Networks eine Architektur für neuronale Netze vorgestellt, die anhand visueller Beispiele Szenen rekonstruieren kann. Sie trainierten das System, indem sie ihm Bilder einfacher virtueller Szenen zeigten und es Bilder bisher unbekannter Kamerapositionen berechnen sollte. Die Ergebnisse sind kaum von Renderings zu unterscheiden.

Nimmt ein Mensch eine neue Szene, beispielsweise einen unbekannten Raum wahr, bewegt er sich und erhält durch die unterschiedlichen Perspektiven sehr schnell einen Eindruck der Objekte im Raum, ihrer Textur und ihrer Beleuchtung. Mit diesem Wissen kann ein Mensch sich mühelos vorstellen, wie der Raum aus anderen Perspektiven aussieht, selbst wenn er den Raum noch nie aus der imaginierten Perspektive gesehen hat.

Damit ein neuronales Netz sich auch neue Perspektiven vorstellen kann, muss es eine abstrakte, vom Blickwinkel unabhängige Repräsentation des Raums berechnen. Bisherige Hoffnungen, dass sich solche Repräsentationen automatisch auf den versteckten Schichten neuronaler Netze bilden, haben sich nicht bewahrheitet. Gerade in der Robotik geht man aber davon aus, dass eine solche Repräsentation Voraussetzung für Aufgaben wie Navigation und Planung ist.

Das Team bei Deep Mind hat sich deswegen eine Architektur für ihr neuronales Netz überlegt, die eine solche Repräsentation erzwingt. Die Architektur ähnelt einem Autoencoder, indem sie das Netz in zwei Teile teilt: Der erste Teil berechnet aus einem Bild einen hochdimensionalen Vektor (256 oder mehr Dimensionen), der als Repräsentation der Szene dient. Der zweite Teil berechnet aus diesem Vektor und der gewünschten Kameraposition wieder ein Bild.

Die Repräsentation der Szene (Raumform, Objektpositionen, Texturen, Beleuchtung) berechnet das System mit einem tiefen Convolutional-Network. Kommt die Position der Kamera erst nach drei Schichten, die den Bildinhalt abstrahieren, hinzu, geht das Training schneller.

(Bild: Neural scene representation and rendering, Eslami et al.)

Für den ersten Teil verwendete Deep Mind ein Convolutional Network, das die Auflösung des Bilds schrittweise verkleinert und die Bildinformationen in immer abstrakteren Repräsentationen codiert. Solche Netzwerke sind spätestens seit DeepFakes im Trend, da sie sich auch sehr effizient auf Grafikkarten berechnen lassen.

Eine solche Berechnung führt das System für jedes Bild der Szene aus und addiert einfach die Vektoren, die dabei herauskommen. Damit das funktioniert, muss das Netzwerk nicht nur lernen, die erkannten Eigenschaften im Vektor zu speichern, sondern auch bei allem, was im Bild nicht zu sehen ist, eine 0 auszugeben.

Der zweite Teil des Netzes generiert aus dem Szenenvektor, der gewünschten Kameraperspektive und ein paar Zufallszahlen ein Bild. Autoencoder würden an dieser Stelle auch ein Convolutional Network mit mehreren Schichten verwenden. Generative Query Networks verwenden stattdessen ein Convolutional LSTM. Das startet mit Nullen in seiner internen Repräsentation und übernimmt in mehreren Schritten immer mehr Informationen aus dem immer gleichen Szenenvektor.

Das Generatornetzwerk ist ein Convolutional-LSTM. Seine Eingabe ist jedoch keine Sequenz, sondern immer die gleiche zuvor berechnete Repräsentation der Szene sowie die gewünschte Kameraposition.

(Bild: Neural scene representation and rendering, Eslami et al.)

Die relativ komplexe Struktur der Generative Query Networks scheint sich gut auf unterschiedliche Probleme anpassen zu lassen. So enthält das in Science veröffentlichte Paper Rekonstruktionen von Räumen mit bunten Objekten, Rekonstruktionen von Shepard-Metzler-Objekten (zufällig aus bunten Würfeln zusammengesetzte Objekte), Rekonstruktionen zufälliger Labyrinthe und Rekonstruktionen von Szenen mit einem Roboterarm.

Die Beispiele deuten darauf hin, dass erweiterte Generative Query Networks auch in realen Umgebungen funktionieren könnten, was beispielsweise für die Wegfindung von Staubsaugerrobotern oder für die motorische Planung von Greifarmen nützlich sein könnte.

Mit den Vektoren, die die Szene repräsentieren lässt sich zu einem gewissen Grad rechnen. Das funktioniert bei der gleichen Kameraposition recht gut (A), schlägt aber bei unterschiedlicher Anzahl der Objekte (B), unterschiedlicher Größe (C) und unterschiedlichen Kamerapositionen (D) fehl.

(Bild: Neural scene representation and rendering, Eslami et al.)

(pmk)