Videoproduktion mit künstlicher Intelligenz umsetzen

Bilder, Texte und Musik – gibt es alles bereits KI-generiert. Aber wie steht es mit Videos? Wir haben ausprobiert, wie KI die Videoproduktion unterstützt.

Artikel verschenken
In Pocket speichern vorlesen Druckansicht 1 Kommentar lesen
, KI Midjourney  Bearbeitung: c't

(Bild: KI Midjourney | Bearbeitung: c't)

Lesezeit: 16 Min.
Von
  • Immo Junghärtchen
Inhaltsverzeichnis

Videoproduzenten kommen schnell ins Schleudern ob der vielen unterschiedlichen Disziplinen, die sie meistern müssen, bevor der vollendete Film bereit ist fürs Publikum: Filmmaterial sichten und arrangieren, dazu eine passend eingetaktete Tonspur aufnehmen. Zum Schluss möchten Untertitel das Werk untermalen, ebenfalls synchron. Beim Abarbeiten der langen To-Di-Liste fragt sich der gestresste Filmer: Ist unter den vielen künstlichen Intelligenzen auch eine für mich dabei?

Um es gleich vorweg zu nehmen: KIs können aktuell keine durchgehenden Videoinhalte aus reinem Text produzieren. Kurze Szenen gelingen – allerdings muss man auch selbst viel Zeit aufwenden, um sie zu generieren. Die KIs verdingen sich dabei noch eher als Assistenten: Sie helfen beim Durchforsten von Musteraufnahmen (Stock Videography), simulieren authentische Sprecherpersönlichkeiten und analysieren gesprochene Inhalte, um synchrone Untertitel zu erzeugen.

Mehr zu Künstlicher Intelligenz

In unserem Experiment haben wir versucht, zu einem bereits existierenden Text einen passenden Videoclip zu drehen und dabei möglichst viel Arbeit den KIs aufzuhalsen. Als Grundlage wählten wir den gemeinfreien Klassiker "Auf zwei Planeten" von Kurd Laßwitz. Das 1897 erstmalig veröffentlichte Buch gilt als einer der ersten Science-Fiction-Romane. Es beginnt mit einer Arktisdurchquerung dreier Männer in einem Hightech-Heißluftballon – also perfekter Stoff für spannende Filmszenen. Unser Ausgangsmaterial besteht lediglich aus einer Textdatei sowie einer gut zehnminütigen Hörbuch-Einsprechfassung davon, die wir in Audacity aufgezeichnet haben. Damit existiert eine definierte Zeitleiste, also die Länge des Projekts und darauf verteilte (akustische) Inhalte. Am Ende soll ein Video im Querformat herauskommen (16:9), das zum Text passt.