c't 19/2024
S. 106
Test & Beratung
Generative KI für Video
Bild: OpenAI

Erste Gehversuche

KI-Videogeneratoren im Test: Haiper, Luma und Runway

Erst vor kurzem revolutionierten generative KI-Dienste wie Dall-E, Midjourney und Stable Diffusion die Art der Bilderzeugung. Jetzt lernen die Bilder laufen. Bisher gibt es nur wenige Anbieter, und die bringen nur kurze Clips zustande. Die Ansätze sind aber vielversprechend. Eine Bestandsaufnahme.

Von André Kramer

Die oben gezeigte Frau im roten Kleid erregte im Februar 2024 bei ihrem Spaziergang durch Tokio viel Aufmerksamkeit. Das hier im Screenshot festgehaltene Video wurde nicht etwa gefilmt, sondern entstand durch Eingabe eines Prompts in einen KI-Videogenerator. Das KI-Unternehmen OpenAI stellte auf diese Weise seine experimentelle Software Sora vor. Öffentlich nutzbar ist sie bisher nicht.

Die kanadische Indie-Pop-Band Shy Kids durfte schon vor dem offiziellen Start mit Sora arbeiten. Der dabei entstandene 1:20 Minuten lange Kurzfilm Air Head erzählt in mehreren zusammengeschnittenen Clips die Geschichte eines Mannes, der einen gelben Luftballon anstelle seines Kopfes hat. Außer Realfilmaufnahmen enthält der Film auch KI-generierte Clips, siehe ct.de/yhbs. Er zeigt, welches Potenzial in den KI-Videogeneratoren steckt.

Mittlerweile gibt es einige Webdienste, die sich kostenpflichtig abonnieren lassen und kommerziell verwertbare Ergebnisse versprechen. Langfristig sollen die KI-Modelle Stockvideos überflüssig machen. Ähnlich exerzieren es Midjourney, OpenAI Dall-E, Stable Diffusion und Adobe Firefly bereits im Fotobereich vor [1]. Denn es führt oft schneller zum Ziel, das gewünschte Bild oder Video detailliert zu beschreiben und von künstlicher Intelligenz generieren zu lassen, als eine Bibliothek mit vorgefertigtem Material in allen möglichen Stilen zu durchstöbern.

Bisher sind KI-Videodienste rar gesät. Sie stecken noch in den Kinderschuhen; wie die Erfahrung mit Bildgeneratoren gezeigt hat, dürften sie sich aber zügig weiterentwickeln. Drei Dienste im Web erzeugen mindestens zehn Sekunden lange Clips aus reinen Textprompts und richten sich an Nutzer, die diese kommerziell verwenden wollen: An unserem Test nehmen der britische Videogenerator Haiper, Luma Dream Machine aus Kalifornien und das Tool des New Yorker Unternehmens Runway ML teil. Ferner gibt es Apps, die Selfie-Fotos in lächelnde oder tanzende GIFs wandeln. Sie werden zuhauf auf TikTok und Instagram beworben und erzeugen kurze animierte Schnipsel des geladenen Selfies: zu wenig, um sich als Testkandidat zu qualifizieren.

Der Kurzfilm Air Head der kanadischen Popband Shy Kids entstand in Teilen mit dem KI-Videogenerator OpenAI Sora., Bild: Shy Kids
Der Kurzfilm Air Head der kanadischen Popband Shy Kids entstand in Teilen mit dem KI-Videogenerator OpenAI Sora.
Bild: Shy Kids

Eingabe und Ausgabe

Video-KIs präsentieren dem Anwender ähnlich wie Bild- und Textgeneratoren zunächst nur eine schlichte Promptzeile. Hier beschreibt man in einem kurzen Text oder auch mit einem Bild als visuelle Starthilfe, wie der Videoclip aussehen soll. Ein reiner Textprompt ist die Königsdisziplin für Anwender und KI, denn in diesem Fall muss die Software ohne Referenz bei null beginnen. Der Prompt dazu sollte neben dem dargestellten Motiv und dem bildgebenden Stil auch das Seitenverhältnis enthalten: In der Regel können Nutzer aus verschiedenen Standardformaten wie 16:9, 4:3 und 1:1 sowie den korrespondierenden Hochformaten wählen – im Prompt oder grafisch zum Anklicken.

Alternativ lädt man ein Bild im JPEG- oder PNG-Format hoch. In diesem Fall orientiert sich der Videogenerator an dessen Seitenverhältnis. Weicht es von den unterstützten Maßen ab, passt die Software die Proportionen entsprechend an. Auch beim Motiv muss die KI nicht rätseln. Was mit ihm geschehen soll, kann eine Textzeile spezifizieren – oder man überlässt es der KI, daraus eine Szene zu drehen. Auf diese Weise entstanden zum Beispiel animierte Versionen bekannter Memes wie des „Disaster Girl“ oder des „Distracted Boyfriend“ (ct.de/yhbs). Einige Modelle akzeptieren auch Videos als Eingabequelle oder ergänzen zwischen zwei Bildern die passenden Frames, etwa um Drohnenaufnahmen zu einem Videoclip zu verbinden.

Alle drei Testkandidaten generieren Videos standardmäßig in 720p-Auflösung. Haiper kann sie auf 1080p aufblasen, Runway ML sogar auf 4K. Bei Luma muss man mit der ausgegebenen Auflösung vorliebnehmen. Die fertigen Clips speichern sie in der Cloud des jeweiligen Anbieters. Bei Runway ML ist deren Speichervolumen abhängig vom gebuchten Tarif, bei den übrigen Anbietern nicht. Alle verstehen Prompts in Englisch oder Deutsch; die Oberflächen der jeweiligen Web-Apps sind aber auf Englisch gehalten.

Stoff für Albträume

Videogeneratoren müssen deutlich mehr leisten als die auf Standbilder spezialisierten Modelle Midjourney, Dall-E und Co, die Grundanforderungen sind aber gleich: Ihre Aufgabe ist keine geringere, als eine korrekte Repräsentation von Dingen und Menschen zu generieren. Dazu gehören beispielsweise anatomische Details wie fünf Finger an jeder Hand und nicht mehr als zwei Arme pro Körper. Die Gehversuche der Bild-KIs in den letzten zwei Jahre n haben bewiesen, dass das alles andere als trivial ist. Das „deutlich mehr“ kommt beim Thema Video durch die zeitliche Dimension zum Tragen. Denn es ist zwar nicht völlig unmöglich, eine Folge von Bildern zu erzeugen, die einander so weit ähneln, dass man sie zu einem Video zusammenkleben kann, ohne dass sichtbare Sprünge entstehen. Foren und Profilseiten auf Reddit, Instagram und Facebook sind voll davon. Zusätzlich müssen aber auch die Physik, die Bewegungen und die Logik stimmen.

Dabei geht derzeit noch mit ziemlicher Sicherheit eine Menge schief: Eine Frau sitzt neben einem Mann am Strand, zieht eine Bierflasche aus der Nase, ändert in einer Bewegung Frisur sowie Gesicht und verliert einen Arm, aus dem Mann wird eine Frau, aus seinem Hemd ein Kleid. „Fuel for Nightmares“, Stoff für Albträume, nennt die Szene das. Und sie hat sichtlich Spaß daran, die generative KI mit einer Abscheulichkeit nach der anderen zu beauftragen. Das Strandvideo sorgt für Schenkelklopfer auf Reddit. Kommerziell nutzen, etwa für Werbe- und Imagevideos eines Tourismusverbands ostfriesischer Inseln, lässt sich die Szene nicht.

Die junge Frau links erbricht eine Bierflasche und transformiert ihren Kopf, während der junge Mann selbst zur Frau wird. „Stoff für Albträume“ nennt das Internet solche KI-generierten Videos. Ihnen mangelt es an Konsistenz., Bild: Facebook-Kanal Cursed AI
Die junge Frau links erbricht eine Bierflasche und transformiert ihren Kopf, während der junge Mann selbst zur Frau wird. „Stoff für Albträume“ nennt das Internet solche KI-generierten Videos. Ihnen mangelt es an Konsistenz.
Bild: Facebook-Kanal Cursed AI

Unter anderem weil die derzeit verfügbaren Videogeneratoren so schnell thematisch abdriften, also oftmals am Ende völlig andere Personen und Dinge zeigen als am Anfang, erzeugen sie nur vier oder fünf Sekunden lange Clips. Denn bei maximal 150 aufeinanderfolgenden Bildern kann nicht ganz so viel schiefgehen. Die Clips lassen sich zwar um nochmal dieselbe Länge erweitern, aber in der Regel nur einmal. Viele KI-Videos im Netz wurden durch einen simplen Trick deutlich verlängert: Deren Produzenten nutzen einfach das letzte Frame des vorherigen Videos als Eingabe, um auf dessen Grundlage ein weiteres Video zu erzeugen. Die fertigen Clips schneiden sie anschließend zusammen.

Konsistenz in Raum und Zeit

Für kommerzielle Zwecke müssen die Dienste also in der Lage sein, über einen möglichst langen Zeitraum Abhängigkeiten und Interaktionen zwischen Gegenständen, Menschen und Tieren zu modellieren. Einem Burger, von dem jemand abbeißt, muss anschließend das abgebissene Stück fehlen. Ein Spaziergänger am Strand muss Fußspuren im Sand, ein Maler sichtbare Pinselstriche auf der Leinwand hinterlassen. Bei den Testkandidaten ist es mit der Konsistenz in Raum und Zeit derzeit noch nicht weit her.

Die Videodienste sollen das Ursprungsbild (oben links) erweitern. Haiper (oben rechts) verzerrt die Gesichtszüge und ergänzt zu viele Finger. Luma (unten links) gibt sich dynamisch, nimmt es aber mit der Anatomie nicht so genau. Runway (unten rechts) animiert das Bild ohne Fehler oder visuelle Dynamik.
Die Videodienste sollen das Ursprungsbild (oben links) erweitern. Haiper (oben rechts) verzerrt die Gesichtszüge und ergänzt zu viele Finger. Luma (unten links) gibt sich dynamisch, nimmt es aber mit der Anatomie nicht so genau. Runway (unten rechts) animiert das Bild ohne Fehler oder visuelle Dynamik.

Den Videogeneratoren fehlt komplexes mathematisches Wissen, etwa in Form einer Physiksimulation, die 3D-Programme wie Blender oder die Unreal Engine mitbringen. Was mit einem 3D-Modell spielend gelingt, stellt einen Videogenerator vor nahezu unlösbare Aufgaben: Bei dynamischen Kameraschwenks oder auch der Rotation um eine Szene mit Drohnen- und Helikopterflügen muss der Videogenerator Landschaften, Personen, Gebäude und andere Elemente dreidimensional korrekt rekonstruieren können. Noch anspruchsvoller wird es bei physikalisch komplexen Vorgängen wie zerbrechendem Glas. Das kann derzeit noch keine kommerziell verfügbare generative künstliche Intelligenz abbilden.

Die generative künstliche Intelligenz Kling AI kann laut ihres chinesischen Entwicklers Kuaishou Videos mit einer Länge von bis zu zwei Minuten und einer Auflösung von 1080p bei 30 Bildern pro Sekunde generieren. Sie ist derzeit als Demoversion ausschließlich in China verfügbar und verwendet nach Angaben der Entwickler ein 3D-Raum-Zeit-Aufmerksamkeitssystem, um Bewegungen konsistent zu modellieren. Laut Kuaishou simuliert das Modell physikalische Eigenschaften der realen Welt. In einem Beispielvideo beißt ein Junge von einem Burger ab, dem dieser Bissen im weiteren Video fehlt. Auch OpenAI präsentiert solche Videos. Kling AI nutzt dafür wie der Konkurrent von OpenAI einen „Diffusion Transformer“ (siehe Kasten).

Das Surfermotiv (oben links) erweitert Haiper (oben rechts) diesmal erfolgreicher als Luma (unten links). Beiden unterlaufen dabei etliche Konsistenzfehler. Runway ML (unten rechts) führt es wiederum stoisch in Zeitlupe weiter.
Das Surfermotiv (oben links) erweitert Haiper (oben rechts) diesmal erfolgreicher als Luma (unten links). Beiden unterlaufen dabei etliche Konsistenzfehler. Runway ML (unten rechts) führt es wiederum stoisch in Zeitlupe weiter.

Darstellbare Inhalte

Anders als Sora und Kling AI mit ihren ambitionierten Zielen sind Haiper, Luma und Runway bereits nutzbar. Sie offenbaren dabei unterschiedliche Charaktere. Runway ML setzt ganz auf kommerzielle Anwender. Die Videos erinnern oftmals an Zeitlupeneffekte, die wenig mehr machen als ein hochgeladenes Bild zu animieren oder ein zum Textprompt passendes, animiertes Stillleben zu zeichnen. So bleiben Details, Gesichter, Kleidung und Gegenstände erhalten, aber es passiert auch nicht viel im Video.

Haiper beschreitet mit seiner Betaversion einen ähnlichen Weg. Der Dienst generiert zwar mehr Details, aber zuweilen auch mehr Fehler: Häufig betreffen sie die menschliche Anatomie. Luma verhält sich deutlich weniger zimperlich und erzeugt lebhafte Szenen, in denen sich allerdings auch Schriftzüge auf Gläsern sowie Zinken von Gabeln bewegen und sich die Gliedmaßen der Personen gegenseitig auffressen.

„A redneck, wearing a shirt with an american flag, eats a pile of hot dogs in an eating contest“. Von oben: Haiper, Luma, Runway
„A redneck, wearing a shirt with an american flag, eats a pile of hot dogs in an eating contest“. Von oben: Haiper, Luma, Runway

Den Diensten liegen unterschiedliche sogenannte Ethikrichtlinien zugrunde. Viele Anbieter verpflichten sich selbst, keine Inhalte zu generieren, die sich für Fake-News-Kampagnen nutzen lassen oder Urheberrechte verletzen. Videos, die einen berüchtigten Kandidaten für die US-Präsidentschaft zeigen, erstellte nur Haiper. Die übrigen Dienste wiesen auf ihre Richtlinien hin. Auch den beliebten Droiden R2-D2 zauberte nur Haiper auf die Leinwand. Luma und Runway lieferten generische, dem Original aber völlig unähnliche Darstellungen. Den Eiffelturm hingegen bauten sie alle nach, wobei nur Haiper unsere Vorgabe annähernd korrekt umsetzte, sowohl ihn als auch die Freiheitsstatue abzubilden.

„A happy couple holdings hands, walking from the eiffel tower to the statue of liberty“. Von oben: Haiper, Luma, Runway
„A happy couple holdings hands, walking from the eiffel tower to the statue of liberty“. Von oben: Haiper, Luma, Runway

Fazit

Der Anfang ist gemacht, doch es ist noch ein weiter Weg, bis KI brauchbare Videos generiert. Viele Dienste scheitern vor allem daran, Personen im Laufe des Videos konsistent darzustellen. Bei Luma Dream Machine morphen Gliedmaßen munter durcheinander. Das sichert dem Dienst breite mediale Aufmerksamkeit auf Reddit und Co. Als Einspieler für kommerziell genutzte Videoprojekte eignen sich die meisten Clips jedoch nicht.

Haiper und Runway machen ihre Sache zumindest bei Standardaufnahmen wie händchenhaltenden Hochzeitspaaren oder Snowboardern besser. Bei unnatürlichen und aufwendigen Szenen müssen auch sie passen. Der Dienst Haiper steht zwar bisher nur als Betaversion zur Verfügung, besticht aber durch hohe Detailtiefe, lebhafte Farben und starken Kontrast. Die dargestellten Personen überzeugen allenfalls, wenn man sie von hinten sieht. Landschaften, Gegenstände und Explosionen hingegen gelingen Haiper schon erstaunlich gut. Die besten Videos liefert bisher Runway. In kluger Selbstbeschränkung verzichtet der Dienst auf hektische Action und liefert dabei ruhige, aber authentische und glaubwürdige Szenen ab. (akr@ct.de)

KI-Videogeneratoren
Produkt Haiper (Beta) Luma Dream Machine Runway ML
Hersteller, URL Haiper, haiper.ai Luma, lumalabs.ai Runway ML, runwayml.com
Systemanforderungen Webbrowser, iOS ab 15.0 Webbrowser Webbrowser
Sprache Englisch Englisch Englisch
Funktionen
Video zu Video ✓ (Gen-1)
Bild zu Video ✓ (Gen-2)
Text zu Video ✓ (Gen-3 Alpha)
Auflösung 1280 × 768 Pixel (720p), 1080p-Upscaling (Pro-Abo) 1360 × 752 Pixel 1280 × 768 Pixel (720p), 4K-Upscaling
Seitenverhältnis 16:9, 4:3, 1:1, 3:4, 16:9 16:9, 9:16 21:9, 16:9, 4:3, 1:1, 3:4, 16:9
maximale Videolänge 8 Sekunden (erweiterbar auf 12 Sekunden) 10 Sekunden 15 Sekunden (Gen-1), 16 Sekunden (Gen-2), 10 Sekunden (Gen-3 Alpha)
Inhalte mit Prominenten und Marken ✓ (sofern die KI darauf trainiert ist) – (Hinweis auf Inhaltsrichtline) – (Hinweis auf Inhaltsrichtline)
Abo und Anmeldung
Anmelden und registrieren Google-Konto Google-Konto E-Mail, Apple, Google
kostenloses Angebot 300 Credits, max. 10 pro Tag 30 Generationen pro Monat, max. 5 pro Tag 125 Credits, nur für Modelle Gen-1 und Gen-2
Wasserzeichen ✓ (kostenloses Abo) ✓ (kostenloses Abo) ✓ (kostenloses Abo)
kommerzielle Nutzung ✓ (ab Pro-Abo) ✓ (ab Standard-Abo)
Cloudspeicher ✓ (kein Limit) ✓ (kein Limit) 5 GByte (kostenlos), 100 GByte (Standard), 500 GByte (Pro)
privater Cloudspeicher ✓ (ab Pro-Abo)
Zugriff über API
Bewertung
Bedienung plusplus plusplus plus
Funktionsumfang neutral minus plus
Video: Variation / Kontinuität plus / minus plus / minus minus / plusplus
Realismus / Detailtiefe plus / plus minus / minus plus / plus
Preis 35,70 US-$ (5000 Credits) 29,99 US-$ (120 Gen. pro Monat) 15 US-$ (625 Credits)
plusplus sehr gut plus gut neutral zufriedenstellend minus schlecht minusminus sehr schlecht ✓ vorhanden – nicht vorhanden k. A. keine Angabe

Videobeispiele im Web: ct.de/yhbs

Kommentieren