DeepMinds KI "Genie 2" erzeugt komplexe interaktive 3D-Welten aus einzigem Bild
Google DeepMind hat "Genie 2" vorgestellt, das aus einzelnen Bildern interaktive 3D-Umgebungen erzeugt. Es soll etwa dem Training von KI-Agenten dienen.
DeepMind hat mit "Genie 2" die nächste Generation seiner Künstlichen Intelligenz zur Erzeugung von Spielwelten vorgestellt. Dieses sogenannte "Foundation World Model" soll dazu in der Lage sein, aus einem einzigen Bild eine Vielzahl komplexer, dreidimensionaler Umgebungen zu generieren, in denen dann interaktiv KI-Agenten trainiert und getestet werden können.
Die von Genie 2 erzeugten 3D-Welten können sowohl von Menschen als auch von KI-Agenten mit Tastatur und Maus bereist werden. Dabei zeigt das System in den auf der Projektseite vorgestellten Demovideos verschiedene fortgeschrittene Fähigkeiten: Es modelliert physikalische Effekte wie Gravitation, Rauch und Wasserreflexionen, behält die Konsistenz der Umgebung bei und kann sogar das Verhalten computergesteuerter Charaktere (NPCs) simulieren.
Empfohlener redaktioneller Inhalt
Mit Ihrer Zustimmung wird hier ein externes Video (Kaltura Inc.) geladen.
Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Kaltura Inc.) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.
Genie 2 ist technisch ein autoregressives, latentes Diffusions-Modell, das das Team mit einem großen Videodatensatz trainiert hat, erklärt das Forschungsteam um Jack Parker-Holder. Das System kann die generierten Welten bis zu einer Minute lang konsistent aufrechterhalten, wobei die meisten Beispiele auf der Webseite 10 bis 20 Sekunden dauern.
Von 2D zu komplexen 3D-Welten
Der Fortschritt gegenüber dem Vorgänger ist erheblich. Der im März vorgestellte "Genie" war auf 2D-Plattformspiele im Stil von Super Mario Bros. beschränkt. Das damalige Modell wurde ausschließlich mit Videomaterial (30.000 Stunden aus hunderten Spielen) und ohne vormarkierte Eingabeaktionen trainiert. Allerdings lief das System noch sehr langsam, mit nur einem Bild pro Sekunde.
Eine nicht optimierte Version von Genie 2 läuft laut Deepmind hingegen mit reduzierter Qualität bereits in Echtzeit. Dies erinnert an frühere Experimente wie Googles GameNGen, das den Shooter "Doom" ohne Engine nachbilden konnte – allerdings war dieses System auf ein spezifisches Spiel beschränkt.
Lesen Sie auch
GameNGen: Google-Forscher simulieren "Doom" ohne Engine
Werkzeug fĂĽr KI-Training
Ein Hauptziel von Genie 2 ist das Training von KI-Agenten. Deepmind demonstriert dies unter anderem mit seinem SIMA-Agenten (Scalable Instructable Multiworld Agent), der in den generierten Umgebungen Anweisungen ausfĂĽhren kann.
Das Forscherteam hofft, mit Genie 2 ein strukturelles Problem beim Training intelligenter virtueller Agenten (embodied agents) zu lösen und dabei die Breite und Allgemeinheit zu erreichen, die für Fortschritte in Richtung Künstlicher Allgemeiner Intelligenz (AGI) erforderlich sind.
Doch bis dahin muss Deepmind noch einige Hürden nehmen: Die Qualität der Ausgabe soll mitunter erheblich schwanken, und für längere Interaktionen muss die Konsistenz der virtuellen Umgebungen weiter verbessert werden.
(vza)