Video-KI: Sora ist beeindruckend, nicht offen und hat Grenzen

OpenAI will einem Weltensimulator und einer "Artificial General Intelligence" mit Sora deutlich näher gekommen sein. Doch wo steht die Technik jetzt eigentlich?

In Pocket speichern vorlesen Druckansicht 85 Kommentare lesen

"Two golden retrievers podcasting on top of a mountain" – erstellt mit Sora von Sam Altman.

(Bild: Sam Altman/Twitter)

Lesezeit: 8 Min.
Inhaltsverzeichnis

Nahezu jeder dürfte die wirklich beeindruckenden Video gesehen haben, die aus dem neuen Videogenerator Sora von OpenAI stammen: Die Frau in den Straßen Tokios und die Hundewelpen im Schnee. Seit der Veröffentlichung haben nur wenige Tester Zugang zu dem Tool bekommen. Es gibt Kritik, nicht nur von Konkurrent Yann LeCun, der mit Meta am selben Tag eine Video-KI präsentiert hat, die anders arbeitet.

Bei generativer KI gibt es derzeit oft Schwarz und Weiß. Einerseits schreien KI-Influencer in den sozialen Medien, dass jeder Schritt und jede Neuigkeit die Welt verändern wird: nachhaltig, disruptiv, mindblowing. Auf der anderen Seite sind Nörgler, die jeden Fehler herauspicken: das taugt nix, wird man nicht nutzen können. Beide Seiten können ihre Standpunkte begründen. Ihnen ist aber auch gemein, dass sie sehr auf die Zukunft ausgerichtet sind, statt zu betrachten, was wir haben.

Die Videos von Sora weisen zahlreiche Fehler auf. OpenAI erklärt selbst, dass vieles noch nicht so funktioniert, wie es sollte – etwa ein Glas, das kaputtgeht, aber nicht zerbricht. Schaut man sich die Videos an, findet man weitere Macken. Personen verschwinden einfach, die Frau in Tokyo macht zweimal hintereinander einen Schritt mit dem linken Bein, die Katze hat zwei linke Vorderpfoten.

Dennoch sind es die besten von einer KI erstellten Videos, die wir bisher gesehen haben. Noch lässt sich das kaum produktiv einsetzen, für Werbevideos etwa. Noch. Weiß sagt: Aber bald wird es alles verändern, man sieht doch, wie schnell Fortschritte gemacht werden! Schwarz sagt: ChatGPT halluziniert auch noch immer, dass sich die Balken biegen, Copilot wird von unserem Kollegen Jan-Keno Janssen im Video als Frechheit bezeichnet und noch zeichnet sich nicht ab, wie die Fehler, egal in welcher generativen KI, behoben werden könnten. Überall das Wörtchen "noch".

Im Hier und Jetzt haben wir beeindruckende Videos. Einsatzzweck, Zukunft – unklar. Zwischen all dem Schwarz und Weiß kommt allerdings Kritik, die es auch jetzt schon gibt, recht kurz. OpenAI verrät partout nicht, wie Sora funktioniert und wie Sora trainiert wurde. Nur so viel wissen wir: Sora nutzt eine Transformer-Architektur und kombiniert sie mit einem Diffusion-Model, es verständigen sich demnach ChatGPT und Dall-E, um die Videos zu generieren. Das veröffentlichte Paper dazu ist dünn.

Beobachtern ist aufgefallen, dass die generierten Videos von Sora Videospielsequenzen ähneln, beispielsweise ist der Staub hinter einem fahrenden Auto ganz typisch für den Staub in Computerspielen – vor allem nur hinter dem Auto und nicht seitlich. Man kann davon ausgehen, dass der Videogenerator zumindest auch mit synthetischen Materialien trainiert wurde, konkret wird vermutet, dass es die Unreal Engine 5 war, die zum Einsatz kam, eine Grafik-Engine, die von Epic Games entwickelt wurde. Die fehlende Offenheit von OpenAI wird immer wieder bemängelt, das Unternehmen trägt ursprünglich aus Gründen das Wort "offen" im Namen. Davon ist offensichtlich nicht mehr viel übrig.

Bei diesem Auto in OpenAIs Video staubt es nur hinten.

(Bild: OpenAI Blogbeitrag)

Mit synthetischem Trainingsmaterial kann OpenAI eventuellen Urheberrechtsverletzungen aus dem Weg gehen. Ob das Urheberrecht tatsächlich verletzt wird, wenn Inhalte für das Training von KI-Modellen genutzt werden, ist noch nicht abschließend geklärt. Manche sagen, es sei das Gleiche, wie wenn Google seine Crawler losschickt und Inhalte für die Suchergebnisse scannt. Demnach wär das maschinelle Lesen erlaubt. Andere sagen, die Verarbeitung der Inhalte durch KI-Modelle verletze das Urheberrecht. OpenAI selbst berief sich zuletzt auf den US-amerikanischen Passus "Fair use" – es sei demnach erlaubt, urheberrechtlich geschützte Werke zu nutzen, wenn es der Allgemeinheit zugutekommt. Zugleich sagt OpenAI auch, könne man KI-Modelle gar nicht ohne urheberrechtlich geschützte Inhalte trainieren.

Was bedeutet das für Sora: Die Weiterentwicklung steht und fällt also auch mit der Frage nach dem Urheberrecht. Darf OpenAI nicht einfach urheberrechtlich geschützte Inhalte nutzen, müssten sie massenhaft Videos lizenzieren – und bezahlen. Oder die Staubwolken sehen weiterhin aus wie in Videospielen.

Vorwürfe, Sora würde die Videos gar nicht generieren, sondern bestehende Stockvideos nur minimal verändern, können weder belegt noch falsifiziert werden. Auch Dall-E kann das Wasserzeichen von Getty-Images in neue Bilder generieren. Das beweist aber nur, dass solche Bilder in das Training geflossen sind. Es heißt nicht, dass die Bilder genommen und verändert wurden. So funktioniert generative KI nicht.

Zugang zu Sora haben nur sehr wenige Menschen. Es sind ein paar KI-Influencer und laut OpenAI einige Sicherheitsforscher, die schauen sollen, wie der Videogenerator missbraucht werden kann. Bei X konnten Menschen sich Prompts wünschen, Sam Altman hat sie eingegeben und die Ergebnisse geteilt. Die dabei herausgekommenen Videos sind deutlich weniger beeindruckend, als die ersten, die OpenAI präsentierte – aber noch immer sehr viel besser, als beispielsweise der Nudeln essende Will Smith von vor einem Jahr. Da schaut es aus, als ob eine Frau rückwärts rühren würde, der Löffel taucht von Zauberhand auf und verschwindet im Brei.

Da hört man sie wieder, Weiß und Schwarz: Noch kann Sora das nicht besser, das ändert sich ganz schnell. Und: Noch kann Sora das nicht, sieht man doch, dass alles Mist ist.

Was wir auch hier nicht erfahren, ist, wie lange es dauert, bis ein solches Video generiert wurde und was das an Rechenleistung frisst.

Und was wir derzeit einfach nicht wissen können, ist, ob es morgen einen weiteren Durchbruch in der ganzen Reihe von Durchbrüchen geben und was dieser für die Gesellschaft und jeden Einzelnen bedeuten wird. Möglicherweise kann KI morgen die halbe Werbeindustrie dank Sora ersetzen. Möglicherweise fluten bald noch mehr Deepfakes das Internet und gefährden die Integrität von Wahlen, wie es immer so schön von den US-Unternehmen heißt, oder sogar die Demokratie. Möglicherweise bleibt Sora aber auch noch jahrelang auf dem Stand von heute: Beeindruckende Videos, deren Einsatzgebiet aber deutliche Grenzen hat.

Schwer vorzustellen, dass Coca-Cola bald einen Weihnachtstruck auf die Reise schickt, der künstlich auf Schienen fliegt und in dem ein Weihnachtsmann mit sechs Fingern sitzt. Aber wer weiß, vielleicht interessiert uns der sechste Finger auch bald gar nicht mehr. Marvel hat bereits das Intro zur Serie "Secret Invasion" entweder von KI generieren lassen oder tut zumindest so, als sei es KI-generiert. Auf jeden Fall spielt der Vorspann mit der typischen KI-Optik.

OpenAI trommelt seit Langem sehr laut, wenn es darum geht, eine Artificial General Intelligence (AGI) zu entwickeln. Eine KI also, die alles kann und nicht mehr bloß eine Inselbegabung hat. Mit Sora will man dem ein Stück näher gekommen sein. Dieser letzte Satz im Blogbeitrag zu Sora ist allerdings der wohl häufigste Satz von OpenAI. Und er wird kaum erläutert. Es heißt nur, die Skalierung der Modelle sei ein vielversprechender Weg, eine Simulation der physischen Welt zu bauen. Die bedarf es wohl für eine AGI, wie OpenAI sie sich vorstellt.

Metas Yann LeCun, prominenter KI-Forscher, bezweifelt das stark. Er hält diesen Ansatz für eine "Sackgasse" und damit auch nicht für einen Fortschritt in Richtung einer AGI. Allerdings hat Meta auch am selben Tag wie OpenAI einen Videogenerator herausgebracht, der grundsätzlich anders aufgebaut ist. Er füllt Lücken in Videos. Jetzt wissen wir dank KI auch, dass Mark Zuckerberg Gitarre spielen und singen kann. Allerdings: Noch nicht besonders gut. Noch.

Screenshot aus einem Video, das Mark Zuckerberg bei Instagram gezeigt hat.

(emw)