Nach Make-a-Video von Meta: Konkurrenz-Modell kann längere Videos generieren

Runway, die Originalfirma hinter Stable Diffusion, bringt mit Gen-1 eine Software heraus, die Videos beliebiger Form generieren kann.

10

Screenshot aus der Demo der Software Gen-1.

(Bild: Runway)

09.02.2023, 13:34 Uhr

Lesezeit: 4 Min.

MIT Technology Review

Von

Will Douglas Heaven

Stable Diffusion kennen mittlerweile viele Menschen: Mit dieser KI-Technik ist es möglich, aus Texteingaben realistische Bilder herzustellen. Das Start-up Runway, eine Firma, die an der Entwicklung dieser Technik entscheidend beteiligt war, hat nun ein generatives KI-Modell entwickelt, das auch Videos herstellen kann. Mit der Software namens Gen-1 ist es möglich, einen bestehenden Film zu nehmen und in ein anderes Video eines beliebigen Stils zu verwandeln. Es reicht, dafür eine Aufforderung (Prompt) in Textform einzutippen oder ein Referenzbild vorzugeben, das das System dann nutzt.

In einer Demonstration auf seiner Website zeigt Runway, wie Gen-1 Clips von Menschen auf einer Straße in Knetpuppen oder auf einem Tisch gestapelte Bücher in eine nächtliche Stadtlandschaft verwandeln kann. Runway hofft, dass Gen-1 für Videos das wird, was Stable Diffusion für Bilder ist. "Wir haben gerade eine Explosion an Modellen zur Bildgenerierung erlebt", sagt Runway-CEO und Mitbegründer Cristóbal Valenzuela. "Ich glaube, dass 2023 das Jahr des Videos sein wird."

Runway wurde 2018 gegründet und entwickelt schon seit einigen Jahren KI-gestützte Videobearbeitungssoftware. Tools der Firma werden von TikTokern und YouTubern sowie von großen Film- und Fernsehstudios genutzt. Die Macher der "Late Show" mit Stephen Colbert nutzten Runway-Software, um die Grafiken der Show zu bearbeiten; das Visual-Effects-Team hinter dem Kinohit "Everything Everywhere All at Once" verwendete Technik des Unternehmens, um bestimmte komplette Szenen zu erstellen.

Forscher aus München gefördert

Im Jahr 2021 arbeitete Runway mit Forschern der Universität München zusammen, um die erste Version von Stable Diffusion zu entwickeln. Stability AI, eine britische Gründung, übernahm dann die Kosten für das Training des Modells mit noch viel mehr Daten. Im Jahr 2022 machte Stability AI schließlich Stable Diffusion zum Mainstream und verwandelte es von einem Forschungsprojekt in ein globales Phänomen.

Allerdings arbeiten die beiden Unternehmen heute nicht mehr zusammen. Das hat auch damit zu tun, dass Rechteinhaber wie Getty Images derzeit gerichtlich gegen Stability AI vorgehen. Sie behaupten, die KI-Firma habe urheberrechtlich geschützte Bilder wie die von Getty ohne Erlaubnis verwendet. Klar scheint zu sein, dass man sie in den Trainingsdaten findet. Runway will derzeit auf Distanz zu Stability Ai bleiben.

Und Gen-1 stellt für Runway einen Neuanfang dar. Es folgt auf eine Reihe von Text-zu-Video-Modellen von Konkurrenten, die Ende des vergangenen Jahres vorgestellt wurden – darunter Make-a-Video von Meta und Phenaki von Google, die beide (sehr) kurze Videoclips aus dem Nichts erzeugen können. Es ähnelt auch Dreamix, einer generativen KI von Google, die vergangene Woche vorgestellt wurde und neue Videos aus bestehenden Videos erstellen kann, indem sie bestimmte Stile anwendet.

Höhere Qualität als Google und Meta

Zumindest der Demo von Runway nach zu urteilen scheint Gen-1 in Sachen Videoqualität einen Schritt nach vorn zu machen. Da es vorhandenes Filmmaterial umwandelt, kann es auch viel längere Videos produzieren als die meisten früheren Modelle. (Runway kündigte an, in den nächsten Tagen weitere technische Details zu Gen-1 auf seiner Website zu veröffentlichen.)

Im Gegensatz zu Meta und Google hat Runway sein Modell mit Blick auf Kunden in der Film-Branche entwickelt. "Dies ist eines der ersten Modelle, das in enger Zusammenarbeit mit einer Gemeinschaft von Videomachern entwickelt wurde", sagt Valenzuela. "Wir wissen seit Jahren, wie Filmer und VFX-Editoren bei der Postproduktion tatsächlich arbeiten." Gen-1, das über die Runway-Website in der Cloud läuft, wird derzeit einer Handvoll geladener Nutzer zur Verfügung gestellt und soll in einigen Wochen über eine Warteliste nach und nach freigeschaltet werden.

Der explosionsartige Aufstieg der generativen KI im letzten Jahr wurde durch Millionen von Menschen befördert, die zum ersten Mal leistungsstarke Kreativwerkzeuge in die Hand bekamen und ihre Ergebnisse mit der Welt teilten. Valenzuela hofft, dass die Einführung von Gen-1 bei den Kreativprofis bald einen ähnlichen Einfluss auf Video haben wird. Und das ist erst der Anfang. "Wir stehen wirklich kurz davor, vollständige Spielfilme zu erstellen", sagt er. Es dauere nicht mehr lange, bis der größte Teil der Inhalte, die man online sehen kann, aus KI-Videogeneratoren komme.