Genie 3: Googles "Weltmodell" baut interaktive Umgebungen
Google hat mit Genie 3 ein neues "Weltmodell" vorgestellt. Es baut interaktive Umgebungen mit Gedächtnis, die auch zum Roboter-Training genutzt werden können.
Mit Genie 3 erstellte, interaktive Spielwelten.
(Bild: Google)
Google DeepMinds neues "Weltmodell" Genie 3 hat ein Gedächtnis von mehreren Minuten: Mit dem KI-Tool erstellte interaktive Welten sollen mehrere Minuten lang konsistent bleiben, erklärt Google. In einem Beispielvideo sieht man, wie eine Spielfigur Farbe an die Wand malt, bevor sie sich umdreht. Als sie wieder zurückblickt, ist die Farbe noch an derselben Stelle.
Empfohlener redaktioneller Inhalt
Mit Ihrer Zustimmung wird hier ein externes YouTube-Video (Google Ireland Limited) geladen.
Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Google Ireland Limited) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.
Diese Konsistenz gehört zu den größten Herausforderungen, vor der KI-Modelle beim Erstellen von 3D-Welten stehen. Googles GameNGen-Modell etwa, das speziell Videospielwelten wie die von "Doom" basteln kann, vergisst nach nur wenigen Sekunden, wo aus den Augen verlorene Gegner stehen und wie viel Munition in der Schusswaffe steckt.
Genie 3 hilft beim Roboter-Training
Genie 3 sei ein großer Fortschritt, schreibt Google DeepMind in einem Blog-Eintrag. Es hat nicht nur ein längeres Gedächtnis als vorherige Modelle, sondern ist auch flexibler als GameNGen und die Genie-Vorgängermodelle: Genie 3 erstellt auf Text-Prompt hin interaktive, dynamische Welten. Diese können auch, aber nicht ausschließlich, für Videospiele genutzt werden. Als weiteren Einsatzzweck nennt Google etwa das Training von Roboter-KIs, die die 3D-Welten ebenfalls bereisen können. Zudem könnten die 3D-Welten von Genie 3 auch für virtuelle Feuerwehr- oder Katastrophenschutzübungen genutzt werden.
(Bild:Â Google)
Menschen können mit den generierten Spielwelten über eine Tastatur interagieren, um Figuren in Echtzeit durch sie zu steuern. Bei Fortbewegung in der 3D-Welt werden neue Bereiche nachgeneriert. Während man eine von Genie 3 generierte 3D-Welt erkundet, kann man neue Elemente per Prompt einfügen.
Videos by heise
Die Genie-3-Welten werden mit 24 Bildern pro Sekunde und einer maximalen Auflösung von 720p ausgegeben. Das ist eine bessere Auflösung als etwas ältere Modelle wie GameNGen schaffen, hinkt aber dem nicht-interaktiven Video-Tool Veo hinterher. Es schafft bis zu 4K-Videos.
Schritt in Richtung AGI
Nach Ansicht von Google ist Genie 3 ein wichtiger Schritt in Richtung einer AGI (Artificial General Intelligence), weil man mit den generierten Welten KI-Agenten in detaillierten Simulationsumgebungen trainieren könne. Dennoch sei das Modell noch nicht perfekt: So seien die Interaktionsmöglichkeiten von KI-Agenten mit den simulierten Welten noch eingeschränkt. Zudem brauche die Interaktion zwischen mehreren Agenten in einer gemeinsamen Simulationswelt noch zusätzliche Forschungsarbeit.
Ein Einsatzszenario von Genie 3 ist laut Google das Erkunden von Schauplätzen aus der Vergangenheit. Gleichzeitig räumt Google ein, dass Genie 3 aktuell nicht in der Lage ist, Orte aus der echten Welt mit großer Genauigkeit wiederzugeben. Zudem will Google für künftige Versionen das Rendering von Texten verbessern. Das Ziel sei außerdem, dass Modelle wie Genie 3 in Zukunft nicht mehr nur mehrere Minuten, sondern stundenlang persistente Interaktion ermöglichen.
Genie 3 wird vorerst nicht veröffentlicht. Google DeepMind will das "Weltmodell" vorerst nur ausgewählten Forschern und Creatorn zur Verfügung stellen, deren Feedback dem Entwicklerteam bei weiteren Fortschritten helfen soll.
(dahe)