Make-a-Videoschnipsel: Googles KI-Diffusionsmodell Imagen macht Kurzvideos in HD
Kurz nach Meta prÀsentiert auch Google ein KI-Werkzeug zum Video-Erstellen nach Textvorgaben. Imagen Video wirkt etwas ausgereifter als Metas "Make a Video".
Im Bereich KI-basierter Bilderzeugung verfeuern die groĂen Anbieter mittlerweile gefĂŒhlt im Sekundentakt ihr Pulver: Statt statischer Bilder ist man bereits beim Bewegtbild angelangt, frĂŒher als selbst Insider unlĂ€ngst noch vermutet hĂ€tten. Dass es sich mitunter um SchnellschĂŒsse handelt, zeigt der teils etwas unausgereift wirkende Stand der Ergebnisse, die vor allem eins ausstrahlen: Jeder will Erster sein â oder zumindest rasch prĂ€sentieren, was man schon hat. Offenbar hat die quelloffene, (fast) ohne EinschrĂ€nkung fĂŒr jeden greifbare Bildmaschine Stable Diffusion nicht nur dem DALL·E-Anbieter OpenAI einen Schrecken eingejagt, sondern auch in den KI-Entwicklungsabteilungen der Facebookmutter Meta und bei Google Brain aufs Gaspedal gedrĂŒckt. Oder hatte man beiderorts die KI-Systeme schon halbfertig in der Lade? Doch eins nach dem anderen.
Hochauflösende Video(-Schnipsel) durch Diffusionsmodelle
Knapp eine Woche nach der Vorstellung des KI-Videogenerators "Make a Video" [1] durch den US-Konzern Meta zeigt Googles KI-Abteilung den Stand der eigenen Forschung in einem Paper und der ergĂ€nzenden Website mit Video-Demos. Diese sind wie bei Meta nur wenige Sekunden lang im Stile kurzer GIF-Animationen und zeigen teils noch das fĂŒr KI-generierte Bildsequenzen typische Flackern, das beim Wechsel der mit Textprompt erstellten Einzelbilder auftritt. Allerdings flackern die Imagen-Videoschnipsel weniger als die Demos von Meta, die auf den unbedarften Betrachter Ende September (rein subjektiv) etwas ungelenk wirkten. AuffĂ€llig ist die offenbar ausgeprĂ€gte FĂ€higkeit des Imagen-Video-Modells, lesbaren Text zu visualisieren.
(Bild:Â Google Research [2])
Text-zu-Bild plus rÀumlich-zeitliche Komponente
Imagen Video ist eine Erweiterung des im Mai 2022 vorgestellten Text-zu-Bild-Systems Google Imagen [3] um die zeitliche Dimension. Laut Imagen-Team beruht das System zum Videoerstellen auf einer "Kaskade von Diffusionsmodellen". Ausgehend von einer Textvorgabe (Prompt) erzeugt das Werkzeug stufenweise hochauflösende Videos. Imagen Video verwendet ein neuronales Netz zum Generieren von Videos sowie daran anschlieĂend eine Reihe miteinander verschachtelter Modelle (das ist offenbar mit dem Begriff Kaskade gemeint), die in mehreren Bearbeitungsetappen die rĂ€umliche Wiedergabetreue und zeitliche Dynamik verbessern sowie den Eindruck von High-Resolution bewirken.
(Bild:Â Google Research)
Wer sich die Architektur dieser WaschstraĂe genauer anschauen mag, kann in das Forschungspaper schauen [4], das das Team ergĂ€nzend zur Website veröffentlicht hat. Schaut man in das Forschungspaper, fĂ€llt direkt auf, dass eine Reihe vorangegangener Arbeiten die Grundlage bilden, so unter anderem ein Paper der OpenAI-Forscher zu DALL·E 2 und mehrere Forschungsberichte zu Diffusionsmodellen, unter anderem das von Robin Rombach und Team zu Stable Diffusion [5] sowie Arbeiten zum 3D-Modellieren KI-erzeugter Grafiken.
Pipeline aus Diffusionsmodellen
Der technische Hintergrund ist komplexer und mathematisch anspruchsvoller, als der auf optische Wirkung abzielende Webauftritt vermitteln kann. Instruktiv ist die Veranschaulichung der Einzelschritte anhand von Beispielen von einem ersten, unscharfen Entwurf bis hin zum fertigen Video in hoher Auflösung, die auf der Website einsehbar ist. Laut Team sind bis zu 24 Bilder pro Sekunde (Frames per Second, kurz: FPS) in einer Auflösung von 1280 x 768 Pixeln möglich.
Das Rendern geschieht also nicht in einem Satz, sondern schrittweise. Dabei erzeugt das Basis-Diffusionsmodell zum Videogenerieren zunÀchst eine Sequenz von 16 Bildern (Frames) in der Auflösung 24 x 48 Pixel bei einer Bildrate von 3 Bildern pro Sekunde. Mit den weiteren Diffusionsmodellen skaliert das KI-System das Video sukzessive hoch und ergÀnzt weitere Bilder bis zur derzeit höchstmöglichen Auflösung von 24 FPS. Das Ergebnis nach dem Durchlaufen aller Schritte ist ein 5,3 Sekunden langes Video in HD. Die Pipeline skizzieren die Forscherinnen und Forscher im Paper wie folgt:
(Bild:Â Google Research)
T5: Text-To-Text Transfer Transformer in XXL fĂŒr das Finetuning
Zum Training der Inputseite (kontextbezogenes Erkennen von Textprompts) hatte das Google-Team einen T5-XXL-Textencoder verwendet, T5 steht hierbei fĂŒr fĂŒnfmal T (Text-To-Text Transfer Transformer) und XXL offenbar fĂŒr die Dimensionen â die Library des T5-Modells ist auf GitHub [6] verfĂŒgbar, dort finden Interessierte auch weitere Infos zum Thema. Die Weights des Modells wurden "eingefroren", wie eine Technik beim Trainieren und Modifizieren groĂer kĂŒnstlicher neuronaler Netze heiĂt. Indem das Team einen Layer des neuronalen Netzwerks "einfriert" (freeze), behĂ€lt es Kontrolle darĂŒber, wie die Weights (Gewichtungen) weiter aktualisiert werden. Sie lassen sich dann zunĂ€chst nicht weiter modifizieren. Die Technik kommt beim Feintuning zum Einsatz.
Unter anderem lĂ€sst sich hierbei Rechenzeit sparen, wĂ€hrend die Genauigkeit wenig darunter leiden soll. In weiteren Trainingsstufen sind dann entsprechend weniger Layer durchzutrainieren. Ein Ăberblick lĂ€sst sich einem Beitrag im Magazin Analytics India [7] entnehmen. Das genaue Vorgehen und die einzelnen Design- und Architektur-Entscheidungen des Google-Research-Teams hat das Imagen-Team im Paper dargelegt. Dem Team zufolge war der Einsatz des Textencoders T5-XXL entscheidend, um die Passung zwischen Textvorgabe und Videooutput herzustellen. Dem Modell liegen 14 Millionen Video-Textpaare und 60 Millionen Bild-Textpaare zugrunde sowie ein Bilddatensatz aus der öffentlich zugĂ€nglichen Datenbank LAION-400M (mit rund 400 Millionen Bild-Textpaaren, wobei LAION die im Netz verfĂŒgbaren Paare lediglich indiziert und so zugĂ€nglich macht).
3D bis Destillieren
FĂŒr die Videoerstellung ist der Schritt von zweidimensionalen Bildern zu 3D wichtig, weshalb das Team sich fĂŒr Video U-Net als Diffusionsarchitektur entschied. Die Text-zu-3D-Methode hatte der Google-Brain-Forscher Ben Poole am 29. September separat vorgestellt unter dem Namen DreamFusion [8]. Bei Video U-Net können die miteinander verschachtelten Diffusionsmodelle offenbar simultan mehrere Videoframes blockweise bearbeiten, wobei SSR- und TSR-Modelle verkettet sind (SSR steht fĂŒr Spatial Super-Resolution, TSR fĂŒr Temporal Super-Resolution). Damit lassen sich offenbar lĂ€ngere zeitliche Dynamiken und AblĂ€ufe darstellen, ohne bildliche KohĂ€renz einzubĂŒĂen. Die weiteren Schritte bis hin zu einem progressiven Destillieren (Distillation) zum Beschleunigen und Sampeln sind im Forschungspaper nachzuvollziehen [9].
(Bild:Â Google Research)
Noch keine Demo zum Ausprobieren
Seitens Google besteht noch keine Möglichkeit, selbst ein solches Video zu erstellen oder das Tool anderweitig zu testen. Das Imagen-Team begrĂŒndet das mit Sicherheitsbedenken: ZunĂ€chst seien noch problematische Bilder auszufiltern, um potenziellen Missbrauch in die Schranken zu weisen. Da das Modell mit frei verfĂŒgbarem Bildmaterial aus dem Internet trainiert worden ist, sind offenbar noch gefĂ€lschte, hasserfĂŒllte, "explizite" (soll heiĂen: bildliche Nacktheit und sexuelle Handlungen) sowie schĂ€dliche Inhalte darin enthalten und ergo damit erzeugbar. Die internen Arbeiten daran, Eingabeaufforderungen sowie den Output zu filtern, scheinen noch nicht abgeschlossen zu sein.
Offenkundig gewalttĂ€tige oder pornografische Inhalte lassen sich dem Imagen-Team zufolge relativ leicht ausfiltern. Schwieriger ist es offenbar mit Stereotypen und Darstellungen, die einen impliziten (sozialen) Bias enthalten. "Wir haben beschlossen, das Imagen-Videomodell oder seinen Quellcode nicht zu veröffentlichen, solange diese Bedenken nicht ausgerĂ€umt sind", lautet die Abschlussformel im Blogeintrag des Teams. Hierzu gilt anzumerken, dass auch von Google Imagen, dem Tool zum Erstellen statischer Bilder ĂŒber Textvorgaben, bislang nur handverlesene intern erstellte Outputs zu sehen waren, aber weiterhin keine Demoversion greifbar ist. Der Text-zu-Bild-Generator Imagen war im Mai 2022 prĂ€sentiert worden, kurz nach dem im April 2022 erschienenen DALL·E 2 [10].
Ausblick: Googles Schaufenster und Stable Diffusion
Wer sich die Imagen-Demos anschauen [11] mag, wird auf der Forschungsseite von Google fĂŒndig. Zurzeit sind nur etwa fĂŒnf Sekunden lange Filmsequenzen im Netz greifbar, also bislang eher Videoschnipsel als Filme, die aber das Potenzial der neuen Technik bereits vor Augen fĂŒhren. Diese EinschrĂ€nkung gilt fĂŒr das vom Google-KI-Team veröffentlichte Anschauungsmaterial ebenso wie die Demos von Meta â im Internet zirkulieren bereits FilmstĂŒcke von einigen Minuten LĂ€nge und erste Musikvideos, die von kreativen Programmierern mit Filmkenntnis mittels Stable Diffusion erstellt wurden.
Hier gilt insbesondere der KI-Filmpionier Glenn Marshall als Wegbereiter neuer Techniken [12]: Nach der Auszeichnung seines KI-Kurzfilms The Crow in Cannes [13] experimentiert er nun unter anderem mit Stable Diffusion und prĂ€sentiert in seinem Twitterkanal laufende Forschungs- und KunststĂŒcke wie ein Projekt, bei dem er Texte von James Joyce und Gedichte bildlich umsetzt.
(sih [14])
URL dieses Artikels:
https://www.heise.de/-7287098
Links in diesem Artikel:
[1] https://www.heise.de/news/Videoschnipsel-aus-Textvorgabe-Meta-stellt-KI-Videogenerator-Make-A-Video-vor-7280410.html
[2] https://imagen.research.google/video/paper.pdf
[3] https://www.heise.de/news/Fotorealistische-KI-Bildsynthese-Google-macht-DALL-E-2-Konkurrenz-mit-Imagen-7121826.html
[4] https://imagen.research.google/video/paper.pdf
[5] https://www.heise.de/news/Text-zu-Bild-Revolution-Stable-Diffusion-ermoeglicht-KI-Bildgenerieren-fuer-alle-7244307.html
[6] https://github.com/google-research/text-to-text-transfer-transformer
[7] https://analyticsindiamag.com/what-does-freezing-a-layer-mean-and-how-does-it-help-in-fine-tuning-neural-networks/
[8] https://twitter.com/poolio/status/1575576632068214785
[9] https://imagen.research.google/video/paper.pdf
[10] https://www.heise.de/news/Machine-Learning-a-la-carte-DALL-E-2-erstellt-und-retuschiert-Bilder-auf-Befehl-6665182.html
[11] https://imagen.research.google/video/
[12] https://twitter.com/GlennIsZen
[13] https://www.heise.de/hintergrund/Artificial-Imagination-Kunst-die-kein-Menschenauge-je-sah-ueber-The-Crow-7252704.html
[14] mailto:sih@ix.de
Copyright © 2022 Heise Medien