Soras "Air Head": Reichlich menschliche Nachbearbeitung

Die Macher von "Air Head" erklären, wie viel sie ihr vermeintlich von OpenAIs Sora erstelltes Video nachbearbeitet haben.

5

Ein Videoschnipsel von Sora aus "Air Head" – ohne Nachbearbeitung.

(Bild: FX Guide)

03.05.2024, 12:40 Uhr

Lesezeit: 4 Min.

Von

Eva-Maria Weiß

OpenAI stellte erst kürzlich mehrere Videos vor, die Künstler gemacht haben, die die Video-KI Sora testen durften. Vor allem eines der Videos beeindruckte: "Air Head". Und was schon beim Erscheinen vermutet wurde, erweist sich jetzt als sicher: Das Video ist vor allem menschlich sehr stark bearbeitet worden. Ein ganzes Team saß an den Effekten und dem Herausfiltern von Artefakten.

In "Air Head" schwebt ein gelber Luftballon über dem Körper eines Mannes. Der Ballon war ursprünglich aber offensichtlich nicht mal gelb, sondern rot. Und noch viel mehr wechselte er bei den Versuchen, ein beziehungsweise mehrere konsistente Videos mit Sora zu generieren, mehrfach die Farbe. Das erzählt Patrick Cederburg von shy kid, zuständig für die Nachbearbeitung von "Air Head", während es mit Sidney Leeder auch einen Produzenten und mit Walter Woodman einen Direktor gab. Nun könnte man schon aufhorchen, wieso so viele Menschen an einem KI-generierten Video saßen? Haben die gemeinsam den Prompt geschrieben? Wohl kaum. Entsprechend tauchten auch bereits kurz nach der Veröffentlichung schon zahlreiche Fragen zu dem Video auf. Es ist beispielsweise länger, als OpenAI angibt, wie lang die KI-Videos sein können, es hat Ton, was Sora bisher nicht kann und vieles mehr. OpenAI hat zu den veröffentlichten Videos gesagt, sie seien mit Sora erstellt worden – Nachproduktion oder weitere Informationen waren Fehlanzeige.

Klassische Nachbearbeitung: Von Artefakten bis zur Auflösung

Cederburg sagt dem Branchenmagazin FXGuide, es sei wirklich interessant gewesen, mit Sora spielen zu können: "Es ist ein sehr, sehr mächtiges Tool, und wir träumen bereits von all den Möglichkeiten, wie es in unseren bestehenden Prozess integriert werden kann. Aber ich denke, bei jedem generativen KI-Tool ist die Kontrolle immer noch das Wünschenswerteste und gleichzeitig das derzeit am schwersten zu Fassende." Um mit Sora Videos zu generieren, kann man wirklich nur einen Prompt eingeben, es gibt keine Hilfe, um mehrere aufeinander aufbauende Videos zu erstellen. Sie seien deshalb hyper-beschreibend vorgegangen, hätten jedes Detail, etwa der Kleidung, in neue Prompts eingefügt, um so immer neue Szenen zu erstellen, die dann aneinander geschnitten wurden. Aber: Es habe reichlich Nachbearbeitung bedurft.

Als Beispiel nennt Cederburg eine Banane, von der die Video-KI kein direktes Abbild oder eine Art Stockfoto hat, sondern nur eine Idee: gelb, gekrümmt, dunkle Enden. Dadurch entstehe jedoch jedes Mal eine neu oder anders aussehende Banane. So sei auch der Luftballon nicht nur farblich verschieden herausgekommen, er habe zum Teil sogar ein gruseliges Gesicht gehabt, das nachträglich entfernt werden musste. "'Air Head' verwendet ausschließlich von SORA generiertes Filmmaterial, das jedoch größtenteils gestaffelt, bearbeitet und stabilisiert sowie hochskaliert oder hochaufgelöst wurde." Auch die Bildausschnitte wurden verändert, obwohl Sora dafür gewisse Möglichkeiten bietet, Kameraeinstellungen und Winkel seien schwierig einzugeben gewesen. Was der Filmemacher allerdings als unabdingbar für Filmemacher hält.

Lesen Sie auch

Nach ersten Gerüchten: Mehr Details zum Redesign von watchOS 12

Apples Finanzchef soll Beschaffung von GPUs blockiert haben

Netflix testet Suchfunktion mit OpenAI-Technologie

c't-Webinar: KI-Schreibwerkzeuge im Praxiseinsatz

Weitere Klagen gegen Apple wegen verschobener Siri – neuer Termin steht

Cederburg und seine Kollegen testen offensichtlich auch andere KI-Videotools. Er sagt, sie alle hätten ähnliche Probleme, beispielsweise mit den Kameraeinstellungen, wobei er hier Rundway AI hervorhebt, die dafür schlechtere und kürzere Videos generierten als Sora. Für "Air Head" habe man am Ende sehr viel Material gehabt, das bearbeitet und zusammengefügt werden musste. Es seien Hunderte generierter Videos mit jeweils einer Länge von 10 bis 20 Sekunden gewesen. Er geht von einem Verhältnis von 300:1 aus. Und selbst die Geschwindigkeit habe angepasst werden müssen – die meisten Clips, die Sora generierte, wirkten wie in Slow-Motion gedreht. Die Stimme des Typs mit dem Luftballon-Kopf, der Sonny heißt, ist Cederburg selbst. Alles ist klassisch nachvertont, ganz ohne KI.

Nichtsdestotrotz hält Cederburg Sora weiterhin für beeindruckend und offensichtlich hat die Arbeit auch so viel Spaß gemacht, dass sie an einem zweiten Teil bereits dran sind.

(emw)