Nvidia Lyra 2.0 erzeugt persistente 3D-Umgebungen aus Bildern

Nvidia hat mit Lyra 2.0 ein Framework vorgestellt, das aus Bildern 3D-Umgebungen erzeugt und dabei eine stabile Erkundung größerer Räume ermöglicht.

vorlesen Druckansicht 1 Kommentar lesen
KI-generierte Küstenstadt mit engen Gassen, Cafés und historischen Gebäuden; Blick aufs Meer mit Booten bei warmem Abendlicht.

Lyra 2.0 erzeugt aus einem Bild erst ein Video und daraus anschlieĂźend eine erkundbare 3D-Umgebung.

(Bild: Nvidia)

Lesezeit: 3 Min.
close notice

This article is also available in English. It was translated with technical assistance and editorially reviewed before publication.

Mit Lyra 2.0 stellt Nvidia ein KI-Framework vor, das grundlegende Probleme bei der Erzeugung von 3D-Umgebungen adressiert. Weltmodelle wie Google Genie 3 können heute aus einfachen Textvorgaben und Bildern begehbare und teils interaktive 3D-Umgebungen erzeugen. Problematisch wird es bei längeren Erkundungen: Generative Systeme verlieren schnell den Überblick über zuvor erzeugte Bereiche, sodass diese nicht persistent bleiben. Aus diesem Grund ist die Erkundung der 3D-Umgebungen oft räumlich oder zeitlich begrenzt.

Mit Lyra 2.0 stellen die Forscher Ansätze vor, die diese Herausforderungen angehen. Zum einen das „räumliche Vergessen“, bei dem zuvor gesehene Bereiche aus dem zeitlichen Kontext des Modells fallen und beim erneuten Betrachten halluziniert werden. Zum anderen ein „temporales Driften“, bei dem sich bei der Generierung kleine Fehler ansammeln und die Geometrie der Szene im Laufe der Zeit zunehmend verzerren.

Videos by heise

Das neue Framework soll diese Phänomene eindämmen, indem es für jedes Bild 3D-Geometrie speichert, um frühere räumliche Zusammenhänge wiederherzustellen und durch selbstaugmentiertes Training der KI zeitliche Fehler gezielt korrigiert. Im Unterschied zum im September 2025 veröffentlichten Vorgänger Lyra 1.0 ermöglicht Lyra 2.0 damit persistente 3D-Umgebungen über längere Erkundungspfade hinweg.

Auf der Projektseite, die auch Videobeispiele enthält, beschreiben die Nvidia-Forscher den Arbeitsablauf von Lyra 2.0. Ausgehend von einem Bild wird zunächst eine 3D-Punktwolke der Szene erzeugt. Anschließend kann der Nutzer die generierte Szene mithilfe eines GUI erkunden und Kamerapfade festlegen, die auch in bislang nicht sichtbare Bereiche führen. Entlang dieser Pfade generiert das Modell zuerst passende Videosequenzen, die anschließend wieder in 3D-Punktwolken überführt werden. Auf diese Weise lässt sich die Szene schrittweise erweitern und verfeinern. Nvidias Methoden helfen dabei, dass bereits erzeugte Bereiche auch über viele Erweiterungsschritte hinweg konsistent bleiben.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externes Video (TargetVideo GmbH) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (TargetVideo GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Am Ende exportiert Lyra 2.0 das Ergebnis als Gaussian-Splatting-Model und als klassische Mesh-Grafik. Diese lassen sich in Nvidias Robotik-Simulationsplattform Isaac Sim importieren, wo KI-Modelle lernen können, durch die generierten Umgebungen zu navigieren. Die Forscher sehen darüber hinaus Potenzial für die interaktive Erkundung am Bildschirm oder in Virtual Reality sowie für den Einsatz in allgemeinen Simulationen.

Nvidia hat Lyra 2.0 als Forschungsprojekt über ein GitHub-Repository sowie über die Modellplattform Hugging Face veröffentlicht. Wer ohne Vorkenntnisse mit KI-Generierung von 3D-Umgebungen experimentieren möchte, kann auf Angebote wie Marble von World Labs oder das eingangs genannte Project Genie von Google zurückgreifen. Letzteres ist derzeit aber nur in den USA verfügbar.

(tobe)