Meta Gen generiert, schneidet und vertont Videos mit KI

Meta will mit einem eigenen KI-Tool OpenAIs Sora Konkurrenz machen. Der Meta Gen kann auch per Foto Personen in Videos ersetzen. Noch ist er nicht öffentlich.

3

In der Realität brandgefährlich - Motocross an einem Vulkan. Mit so krummen Rädern würde man auch schnell stürzen.

(Bild: Meta / YouTube, Screenshot und Bearbeitung: heise online)

05.10.2024, 14:20 Uhr

Lesezeit: 4 Min.

Von

Nico Ernst

Bereits im kommenden Jahr könnte der KI-Videogenerator "Meta Gen" in Apps wie Facebook oder Instagram Einzug halten. Der Mutterkonzern dieser sozialen Netzwerke hat das Projekt jetzt vorgestellt, es aber noch nicht öffentlich zugänglich gemacht. Im Gegensatz zu anderen Video-KIs wie Sora von OpenAI soll Meta Gen nicht nur Videos generieren, sondern auch die Bearbeitung bestehender Clips ermöglichen.

Auf seiner Projektseite zeigt Meta nicht nur per Textprompt generierte Videos, die aktuell bis zu 16 Sekunden lang sein können. Auch der Tausch von Elementen im Video soll durch einfache Texteingaben möglich sein. So zeigt einer der Clips etwa einen Läufer am Strand, dem per Prompt blaue Pom-Poms wie bei einem Cheerleader in die Hände gedrückt wurden. Und auch, dass man sein Gesicht durch Hochladen eines Fotos in ein Video montieren kann, erwähnt Meta ausdrücklich – das offensichtliche Missbrauchsrisiko ist enorm.

Meta Gen bleibt vorerst intern

Wie Bloomberg berichtet, ist Meta Gen bisher nur einigen Mitarbeitern von Meta intern zugänglich sowie ausgewählten Filmschaffenden. Aus Gesprächen mit Meta berichtet das Medium unter anderem, dass das Unternehmen derzeit noch nach Wegen suche, eine sichere Verwendung der KI zu ermöglichen. Meta sei dabei "ein bisschen erwachsener geworden" meint Bloomberg-Autor Kurt Wagner.

Nicht nur beim Ändern der Inhalte von generierten Videos geht Meta Gen offenbar über den Funktionsumfang bisheriger Video-KIs hinaus. So soll es unter anderem möglich sein, auch bestehende Videos mithilfe des maschinellen Lernens zu schneiden, indem man per Text beschreibt, welche Inhalte erhalten bleiben sollen. Ebenso kann Meta Gen Musik und Soundeffekt einem Video hinzufügen. Dabei lässt sich laut Metas Ankündigungen der Stil oder die Stimmung der Musik beschreiben. In den auch auf YouTube veröffentlichten Beispielen weist der Konzern allerdings darauf hin, dass nicht die gesamte Musik der Clips von der KI erstellt wurde. Die Struktur der LLMs hinter den Generatoren für Bild und Ton beschreibt ein Forschungspaper (PDF).

Passende Soundeffekte an der richtigen Stelle – manchmal

Eine große Erleichterung für Videoproduzenten könnte auch sein, dass man anhand der Inhalte der Bilder Toneffekte generieren lassen kann. Die zeitgenau und in der richtigen Länge zu platzieren ist für Ungeübte oft eine Herausforderung. Die Beispielvideos sollen das etwa für Motorgeräusche von Fahrzeugen zeigen. Auffällig: Bei einem Video eines Feuerwerks erklingt der Knall der Raketen gleichzeitig mit dem Beginn der Lichteffekte. Die virtuelle Kamera müsste sich also direkt vor der Rakete befinden, um die unterschiedlichen Laufzeiten von Licht und Schall auszugleichen.

In anderen Bereichen wirkt Meta Gen aber sogar realistischer als OpenAIs Sora, das erst vor einem halben Jahr für Staunen sorgte. Ein Clip eines Mädchens, das durch einen Sandstrand läuft, zeigt etwa keine der typischen KI-Fehler wie sich überschlagende Füße und ebenso recht real wirkende Spuren im Sand. Andere Beispiele, insbesondere von menschlichen Gesichtern, bringen im Standbild jedoch wieder die typischen Verzerrungen und den Wachs-Look von Bildgeneratoren zum Vorschein. Die berüchtigten Gummifinger sind natürlich auch vorhanden.

Auch Meta Gen halluziniert

Ebenso treten die bekannten Halluzinationen von KIs bei Meta Gen noch auf. Ein DJ-Controller hat etwa weit abstehende bunte Hebelchen – das würde man beim Auflegen eher nicht haben wollen – und etwas, das wohl wie der Tonarm eines analogen Plattenspielers aussehen soll. Und bei dem in Social Media am häufigsten und auf Metas Projektseite ganz oben zu sehenden Clip eines Nilpferd-Babys wirken die im Wasser schwimmenden Blumen seltsam aufdringlich im Raum platziert, so wie die Effekte früher, rein analog produzierter 3D-Filme.

Trotz dieser Einschränkungen braucht die Generation von Videos noch einige Dutzend Minuten, wie Bloomberg berichtet. Das Ziel von Meta soll es aber sein, die Funktionen auch lokal auf Smartphones laufen zu lassen – vermutlich aber doch mit Unterstützung durch Berechnungen in der Cloud. Dabei dürfte Meta erheblich mehr Rechenkapazität benötigen. Die bisher vor allem für einen Chatbot genutzte Meta AI hat nach Angaben des Unternehmens weltweit rund 500 Millionen Nutzer. In der EU ist das System noch nicht verfügbar.

(nie)

Alle Angebote

Newsletter heise-Bot Push Push-Nachrichten

${intro} ${title}