KI-Videos sind jetzt schon täuschend echt | KI-Videogeneratoren im Test

Vom Text-Prompt zum fertigen Clip: Sechs KI-Video-Tools im Test. c’t 3003 zeigt, was die Tools leisten und wie realistisch KI-generierte Videos wirklich sind.

In Pocket speichern vorlesen Druckansicht 7 Kommentare lesen

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externes YouTube-Video (Google Ireland Limited) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Google Ireland Limited) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Lesezeit: 27 Min.
Inhaltsverzeichnis

KI-generierte Videos werden immer realistischer – doch wie leistungsfähig sind die verschiedenen Tools wirklich? c’t 3003 testet sechs populäre Anbieter und Open-Source-Alternativen und zeigt die technischen Möglichkeiten und ethischen Herausforderungen, die mit KI-Videogeneratoren kommen.

Transkript des Videos

(Hinweis: Dieses Transkript ist für Menschen gedacht, die das Video oben nicht schauen können oder wollen. Der Text gibt nicht alle Informationen der Bildspur wieder. Die im Transkript besprochenen Beispiele werden nur im Video gezeigt, der Text gibt nur den Kommentar dazu wieder.)

Guckt mal hier, dieser Mann existiert nicht, die Spaghetti existieren nicht, nichts existiert. Dieses Video ist komplett KI-generiert. Und ganz ehrlich, wenn ich diese Szene in einem Film oder einer Serie sehen wĂĽrde, also zwischen echten Szenen eingebettet, wĂĽrde ich das wahrscheinlich nicht merken, dass das KI-generiert ist. Und das ist ĂĽbrigens nicht der gehypte und noch nicht offiziell gestartete Videogenerierer Sora von OpenAI, mit dem wir das gemacht haben, sondern das haben wir gemacht mit Kling AI aus China. Ein Produkt, das man jetzt schon benutzen kann, im Gegensatz zu Sora.

Ja, und auch diese Videos hier habe ich alle mit KI selbst erstellt, einfach per Text-Prompt. Also: Mann isst Spaghetti, ein Hund läuft die Straße lang, eine Steampunk-Fabrik – nur halt auf Englisch. Wenn euch dieser Stil bekannt vorkommt, genau mit diesen Tools entstehen viele dieser aktuell ziemlich viralen Clips auf TikTok, Insta und YouTube Shorts.

Ja, aber auch ganz ehrlich, was wir euch bisher gezeigt haben, das waren so Best-Case-Szenarios. Also das waren jetzt so von uns vorausgewählte Sachen, die besonders gut aussahen. Die meisten anderen Sachen waren bei weitem nicht so gut. Oder kennt ihr Stand-Spaghetti? Naja, aber die Fortschritte sind auf jeden Fall krass. So sahen Spaghetti-essende Menschen nämlich noch im März 2023 aus. Ist ein Unterschied, würde ich sagen.

Und während also alle auf OpenAI Sora warten, haben wir einfach mal die jetzt populärsten Generierer getestet. Das sind ganz normal öffentlich zugängliche Produkte, die könnt ihr auch ausprobieren, wenn ihr das wollt. Einige Tools sind sogar kostenfrei. Und ich habe auch sogar zwei Open-Source-Projekte getestet. Damit habe ich lokal auf meinem eigenen Rechner Videos berechnet.

Und auch wenn ihr jetzt schon wisst, dass ihr niemals KI-Videos generieren wollt, dann seht ihr hier in diesem Video zumindest, wie weit die Technik inzwischen ist und ob ihr da schon drauf reinfallen wĂĽrdet. Bleibt dran!

Liebe Hackerinnen, liebe Internetsurfer, herzlich willkommen hier bei …

Und jetzt ganz am Anfang erstmal kurz ein Disclaimer. Ja, also ich finde das ganze KI-Zeug nicht nur ein bisschen faszinierend, sondern auch ziemlich gruselig und gefährlich. Wie das so oft bei KI-Sachen ist. Bei KI-Videos ist das Missbrauchspotenzial allerdings jetzt schon riesig. Also schon jetzt gibt es Missbrauch. Also erstmal natürlich sowas wie Deepfake, Pornos. Wo Menschen ungefragt auf irgendwelche Körper montiert werden. Oder halt bei Deepfakes, wo prominente Menschen irgendwelche Sachen verkaufen, von denen sie gar nichts wissen. Oder halt politische Propaganda auch. Also, wenn man Social Media verwendet, dann wird man definitiv jetzt schon mit so einem Zeug konfrontiert.

Ja, und jetzt hier die große Moralfrage. Warum stellen wir überhaupt die KI-Videoanbieter vor, wenn das so gefährlich ist? Weil a) es natürlich auch viele sinnvolle Anwendungsmöglichkeiten gibt und b) weil ich das für wichtiger halte, darüber zu informieren, was technisch eigentlich möglich ist, als über solche, sagen wir mal, moralisch problematischen Themen gar nicht zu berichten.

Das Thema ist ja auch nicht nur in der Tech-Bubble präsent. Mein 3003-Kollege Lukas war vor kurzem beim WDR zu Gast und hat über Deepfakes und KI-Manipulation gesprochen. Also lieber zeigen, was ist, als das Thema einfach zu ignorieren. Also so sehen wir das hier jedenfalls.

Jetzt aber ran an die Buletten. Wir haben also sechs populäre KI-Videotools getestet. Da reicht ein kurzer Text-Prompt und schon kommt da dann so ein Video hinten raus. Oder man kann dem System auch ein Bild geben und es macht daraus dann ein Video. Also entweder nur einfach ein Bild draufschieben und gar nichts machen, dann denkt sich das System selber aus, wie es das bewegt. Oder man sagt halt, man schreibt in Prompt rein, was da passieren soll.

Ja, und bei KI-Videos haben wir am Anfang schon gesagt, da denken viele bestimmt erstmal an OpenAI Sora. Das war ja auf jeden Fall so ein Hype Anfang des Jahres. Zumindest ich habe überall an jeder Ecke die Marketing-Videos von OpenAI gesehen, die mit Sora erstellt worden sind. Aber das war halt im Februar und jetzt ist November und immer noch ist Sora nur für ausgewählte Leute nutzbar, nicht für alle. Also man kann sagen, das Produkt ist noch nicht veröffentlicht.

Aber neben Sora gibt es ja halt noch etliche andere Tools, die da in den letzten Monaten wirklich deutlich besser geworden sind. Zum Beispiel Pika, Luma Dream Machine, RunwayML oder Kling AI. Die können alle aus Text-Prompts eben mindestens fünf Sekunden lange Videos erstellen. Also diese kommerziellen KI-Tools, die alle in der Cloud laufen, also man geht einfach auf eine Website, die haben wir getestet. Außerdem aber auch noch die Open-Source-Video-Generierer, CogVideo und Allegro, die hier lokal auf meinem Rechner laufen mit einer RTX 4090 mit 24 GB Videoram. Beide habe ich unter Windows 11 mit dem Tool Pinokio installiert. Dazu zu Pinokio hatten wir ja schon mal ein eigenes Video gemacht.

Für den Test haben wir uns bei den Online-Plattformen je ein bezahltes Abo geholt, das die schnellste Generierungszeit bietet und uns genügend Guthaben für alle möglichen Tests gibt. Zu den genauen Kosten sage ich später noch was, aber ganz grob kostet so ein Abo bei den Anbietern so ab 10 US-Dollar pro Monat. Je nachdem, wie viele Videos man erstellen will und ob man die kommerziell nutzen will, das kostet dann deutlich mehr.

Ja, und dann haben wir uns mit den sechs Tools vorher von uns festgelegte Prompts berechnen lassen und die Ergebnisvideos dann miteinander verglichen. Das Gute: Auch wenn wir noch keinen Zugriff auf Sora haben, hat OpenAI unter jedem dieser Sora-Demo-Videos den verwendeten Prompt veröffentlicht. Also haben wir versucht, die Sora-Videos von den anderen Anbietern berechnen zu lassen. Okay, zugegeben, da muss man halt OpenAI vertrauen, dass das wirklich die Prompts waren und dass die Videos wirklich so aus Sora hinten rausgekommen sind. Aber das finde ich ist erstmal eine ganz gute Vergleichsgrundlage.

Ja, das ist ja eines dieser Sora-Marketing-Videos. Also das ist, glaube ich, das bekannteste Video. Eben die Frau, die da durch Tokio läuft, und den kompletten Prompt haben wir in die anderen Generatoren reingeschmissen. Dann werden die Unterschiede eigentlich schon ziemlich deutlich. Am dichtesten an Sora dran ist auf jeden Fall Kling AI. Das ist von der chinesischen Firma Kuoshou. Und ja, das sieht jetzt nicht ganz so realistisch aus wie Sora, aber die Bewegungen sind schon ziemlich gut. Klar, das Kleid ist mal vor und mal hinter den Beinen, aber da drücken wir mal ein Auge zu. Aber hier zum Beispiel diese Spiegelungen in den Wasserpfützen, die sehen wirklich gut aus. Das ist die neueste Kling-Version 1.5 Pro, und die ist um einiges besser als Kling 1.0. Hier mal zum Vergleich das gleiche Video mit der 1.0-Version. Das wird später noch wichtig, weil bestimmte Features nur mit Version 1.0 funktionieren.

Und hier der gleiche Prompt in Runway ML. Hier wirkt das schon alles etwas comic-hafter, aber die Bewegungen, die Farben und auch die Spiegelungen sind schon ganz lebendig. Bei den anderen beiden Online-Tools, also Pika und Luma Labs, und den Open-Source-Generatoren CogVideo und Allegro sieht der Prompt, den OpenAI verwendet hat, gar nicht mal so gut aus. Also hier mal Pika: Da sind auf jeden Fall wesentliche Aspekte aus dem Prompt nicht umgesetzt. Also die reflektierenden Pfützen zum Beispiel. Und auch die Bewegungen sehen nicht realistisch aus. Auch bei Luma ist es zwar so ungefähr wie im Prompt beschrieben, aber die Bewegungen sind definitiv nicht natürlich.

Bei den lokalen Systemen muss man auch ganz klar sagen, die sind den Cloud-Systemen, gerade bei diesem Prompt, deutlich unterlegen. Hier bei CogVideo fällt direkt auf, dass die Framerate viel zu niedrig ist. Also das Video sieht nicht flüssig aus. Das sind hier nur 8 FPS, also 8 Bilder pro Sekunde. Bei CogVideo könnt ihr auf jeden Fall entweder das Modell mit 2 oder 5 Milliarden Parametern benutzen. Die Schwächen sind aber bei beiden Modellen ganz ähnlich. Also die Frau bewegt sich total unnatürlich, und das liegt jetzt nicht nur an den fehlenden FPS. Bei Allegro ist zwar die Framerate besser, aber insgesamt sieht das auch nicht wirklich menschlich aus. Was vor allem an der Frau liegt, die irgendwie ganz komisch läuft und ihre Tasche so nachzieht, als wäre das irgendwie ein Koffer oder so. Keine Ahnung.

Gut, das ist aber jetzt auch wirklich ein ganz spezieller Prompt, der eben mit Sora besonders gut aussieht. Wir haben natürlich deswegen noch ganz andere Prompts ausprobiert, die für alle Modelle faire Bedingungen schaffen sollen. Weil sie unterschiedliche Aspekte herausfordern. Was aber auch wichtig ist, die KIs hier haben auch nicht alle den gleichen Anspruch. Also irgendwie so super realistische Videos auf Hollywood-Niveau zu berechnen. Pika zum Beispiel hat eher so einen einfachen Ansatz. Also damit soll man so lustige, kleine Gag-Videos für Social Media machen. Also ich kann zum Beispiel ein Bild von mir hochladen und dann mich von zwei Händen zerknüllen lassen oder mich zum Kuchen machen lassen. Ganz nice.

Und generell sahen Pika und Luma bei den anderen Prompts dann auch deutlich, dass sie sich deutlich besser aussehen. Also hier zum Beispiel einfach ein Hund, der auf einer Straße läuft. Bei CogVideo und Allegro waren aber auch die anderen Prompts nicht so wirklich doll. Also hier der Hund läuft bei Allegro auf mich zu und die Kamera fährt ihm entgegen. Eigentlich eine klassische filmische Bewegung, aber es wirkt trotzdem, als wäre da gerade was kaputt. Genau wie bei CogVideo. Der Anfang ist noch ganz gut, aber dann dreht sich der Hund so in sich selbst rein. Also ja, okay.

Ja, und hier wollte ich so eine futuristische Tech-Messe haben. Bei Kling sieht das so aus. Aber klar, da gibt es auch noch offensichtliche Fehler, wie hier, dass immer wieder Personen aus dem Nichts auftauchen oder verschwinden. Aber hier mal der Vergleich zu CogVideo. Ja, da fehlen nicht nur Frames, sondern da fehlen halt auch ganz die Roboter, die ĂĽber KI diskutieren, die da im Prompt drinstanden. Bei Allegro sieht es auf jeden Fall besser aus, aber auch nicht wirklich toll. Man merkt das halt, dass die kommerziellen Tools eine Generation weiter sind.

Standardmäßig erzeugen die KI-Tools hier immer entweder fünf oder teilweise auch zehn Sekunden. Bei Luma, Kling, RunwayML und CogVideo kann ich über diesen Button hier auch die Videos verlängern. Entweder vollautomatisch oder über einen neuen Prompt und die neu generierten fünf bis zehn Sekunden werden dann so nahtlos wie möglich angebunden. Bei dem Hund hier in Runway wollte ich noch eine Person einfügen, die mit ihm Gassi geht. Ja gut, die beiden Videos gehen jetzt zwar so ineinander über, aber die Person halt taucht dann halt wie ein Geist aus dem Nichts auf.

Solche Probleme gibt es aber bei allen Systemen. Also richtig zuverlässig schafft das noch kein System, also so nahtlos lange Videos zu erzeugen. Grundsätzlich sind so aber Videos mit bis zu 40 Sekunden bei RunwayML oder sogar zwei Minuten bei Kling möglich. Und Sora soll ja aus nur einem einzigen Prompt 60 Sekunden Video erstellen können. Ja, soll man, konnte ja noch fast niemand ausprobieren.

Naja, bei fast allen generierten Videos, die wir ausprobiert haben, hat Kling auf jeden Fall die beeindruckendsten Ergebnisse geliefert. Oft dicht gefolgt von RunwayML. Also hier mal im direkten Vergleich. Ein Hightech-Zauberer-Duell. Da haben die unterschiedlichen KIs auch ganz unterschiedliche Videos erzeugt. Also Kling hat hier wirklich futuristische KI-Zauberer geschaffen. Runway sieht da gar keine Notwendigkeit, Menschen zu zeigen. Luma zeigt mir irgendwie so eine Mischung aus KI-Welt, klassischen Zauberern und Schwertern. Und Pika geht weniger auf den Kampf als auf die Umgebung ein. Pika arbeitet generell weniger mit Bewegung im Bild, sondern zeigt leichte Bewegung mit starken Kamerafahrten.

Kling schafft es nicht. Es ist dagegen ganz gut, Bewegung darzustellen. Also auch nicht nur von Menschen. Hier wollte ich mal so eine Steampunk-Dampfmaschine erzeugen lassen. Ja und der Dampf sieht bei Kling, Runway und Pika ja eigentlich schon ganz gut aus. Luma hat immer diesen comichaften Stil und geht auch am wenigsten auf meine WĂĽnsche ein. Also das Teil heiĂźt ja auch Dream Maschine und das trifft den Stil eigentlich am besten. Also das erschafft irgendwie so eine Version von irgendwas, die aussieht wie ein Traum.

Texte sind ja bei KI-Bildern und natürlich auch Videos immer so ein Thema für sich. Das ist ja schwierig. Aber bei Luma und RunwayML funktioniert das schon ganz gut. Also hier mal c't 3003 auf einer Werbetafel oder auf dem Monitor sieht schon ganz gut aus. Bei Kling wirkt das allerdings so, als hätte das gar keinen Bezug zum eigentlichen Text. Genauso leider auch bei Pika und den Open-Source-Programmen. Nur bei CogVideo kann man zumindest erahnen, was da stehen soll.

Ich kann der Video-KI aber auch Bilder geben und die Bilder dann quasi zum Leben erwecken. Image to Video heißt es dann statt Text to Video. Da gibt es ganz unterschiedliche Sachen. Bei Luma kann ich zum Beispiel zwei Frames von einem Video oder Bilder von zwei Personen als Input geben und die dann verschmelzen. Also hier verwandele ich mich in Lukas oder hier bei RunwayML laufe ich hier in einem Standbild einfach los, werde dabei aber einfach irgendwie 20 Jahre älter. Bis auf Luma sind alle Tools in der Lage, auch negative Prompts einzugeben. Also bestimmte Dinge, die ich eben nicht in meinem Video haben will. Das kann ganz hilfreich sein, weil selbst bei genauen Prompt-Anweisungen kannst du ja nicht wirklich alles in einem Video einstellen. Du kannst es im Detail eingeben und die KI muss sich bestimmte Aspekte einfach selbst überlegen.

Grundsätzlich ist es gut, die Prompt so ausführlich wie möglich zu formulieren. CogStudio hat dafür sogar extra die Möglichkeit, den eigenen Prompt nochmal durch ChatGPT zu schieben und dann einen deutlich umfangreicheren Prompt daraus zu bekommen. Nur bei Pika nicht. Da sind die Ergebnisse quasi umgedreht. Immer besser, wenn der Prompt so kurz wie möglich ist. Wir haben beim Testen gemerkt, ChatGPT kann gut dabei helfen, passende Prompt für die verschiedenen Systeme zu erstellen. So was wie „Optimiere diesen Prompt für xy”.

Worin sich die KI-Tools auf jeden Fall sehr deutlich unterscheiden, sind die Oberflächen. Wie umfangreich kann ich einzelne Parameter einstellen? Wie kann ich die Videos im Nachhinein noch bearbeiten? Und so weiter. Und da lassen sich die Tools hier in zwei Kategorien einteilen. RunwayML, Kling und CogVideo sind ein bisschen umfangreicher. Damit lassen sich ganze Projekte umsetzen. Pika, Luma und Allegro sind vom Aufbau her eher für so kurze Sachen geeignet. Also hier bei RunwayML kann ich zum Beispiel nicht nur die Auflösung und das Format einstellen, sondern die generierten Videos auch direkt weiter bearbeiten und in Ordnern sortieren lassen.

Bei Kling kann ich neben dem Format und der Auflösung auch einstellen, wie sehr sich die KI an den Prompt halten muss. Also hier eher kreativ oder was Neues dazu denken. Eine hohe Relevanz bedeutet, dass die Ausgaben sehr passend und zielgerichtet sind. Die Kamerabewegung kann ich bei Kling zwar ziemlich genau einstellen, aber nur, wenn ich die alte Version 1.0 verwende. Die sieht halt generell viel schlechter aus als die 1.5er.

Bei Pika und bei Luma merkt man sofort, dass die Plattformen sich vor allem an Leute richten, die ganz ohne technische Skills kreative Videos machen wollen. Also hier kann man fast nichts einstellen. Bei Pika habt ihr noch die Möglichkeit, das Modell und das Seitenverhältnis auszuwählen oder hier so einen vordefinierten Effekt für eure Videos da drauf zu klatschen. Bei Luma kann ich wirklich alles über das Prompt-Fenster einstellen, also auch die Kamerasteuerung hier über Befehle wie „Camera Move Left“. CogVideo und Allegro haben relativ übersichtliche Oberflächen, wo ich aber zum Beispiel das Upscaling einstellen kann.

CogVideo, was ich übrigens in der Cog Studio Variante von Pinokio verwende, beherrscht neben Text to Video auch noch Image to Video, Video to Video und Extent Video. Mit Video to Video kann man den Style von Videos ändern, das ist ganz cool. Ah ja, die einzelnen Tools haben so ziemlich alle unterschiedliche Auflösungen, in denen Videos maximal ausgegeben werden können und auch teilweise unterschiedliche Frameraten. Ich blende euch hier mal eine Tabelle ein, dann könnt ihr kurz auf Pause drücken und das in Ruhe anschauen.

Ja, die Geschwindigkeit von den Systemen zu vergleichen ist ziemlich schwer, weil da ja auch die Server-Kapazitäten eine Rolle spielen und weil ja auch ziemlich oft der Hinweis auf ausgelastete Server kommt und das gilt nicht nur für die kostenlosen Zugänge, auch bei den Abo-Modellen, die mit priorisierten Zugängen werben, mussten wir beim Testen immer mal wieder länger warten.

Aber mal ganz grob unsere Erfahrung aus dem Test hier: RunwayML hat unterschiedliche Modelle, die ich verwenden kann, unter anderem das Gen3 Turbo Modell. Das heißt, man kann ein 10-sekündiges Video in 15 Sekunden erzeugen. Klar, das geht auf Kosten der Qualität im Vergleich zum normalen Modell, aber das ist halt relativ schnell. Im Schnitt habe ich ungefähr so 120 Sekunden auf ein Video gewartet, vom Prompt-Los-Schicken bis zum Download.

Luma war bei unseren Versuchen ziemlich schnell, da habe ich teilweise nur 50 Sekunden gewartet, bevor ich das fertige Video herunterladen konnte. Pika gibt selbst an, für ein Video ca. 60 Sekunden zu brauchen und je nach Promptlänge hat das im Schnitt auch gestimmt, manchmal haben wir aber auch bis zu 3 Minuten auf das Video gewartet. Und Kling braucht am längsten, teilweise auch mal 15 bis 25 Minuten, bis das Ergebnis da war. Je nach Auslastung der Server kriegt man da einen Hinweis: Komm in 15 oder auch mal 25 Minuten wieder.

Ja, klar, Browserfenster kann ich sogar schließen und das läuft dann weiter, aber das Kling auf jeden Fall deutlich langsamer als die anderen drei Tools. Und ich habe ja schon die Pro-Variante, also das Abo, das laut Kling den schnellsten Zugang geben soll. CogVideo und Allegro habe ich lokal auf meinem Rechner, wie gesagt, mit RTX 4090 laufen lassen. Mit Allegro hat das generell nicht so viel Spaß. Das Video hat bei dem Kling-Generieren von so einem Clip etwa 30 Minuten gedauert. CogVideo war schneller, vor allem wenn man statt des 5 Milliarden Parameter Modells, das mit 2 Milliarden nimmt, dann konnte ich in weniger als 2 Minuten so ein Video berechnen.

Ja, und jetzt noch die Frage nach dem Geld: Also wie viel zahle ich für so ein KI-generiertes Video? Das ist sehr unterschiedlich, je nach Anbieter. Die Online-Anbieter hier aus dem Video arbeiten alle mit Credits, also ihr bekommt entweder kostenlos oder als Teil von einem Abo eine gewisse Anzahl an Credits, die ihr dann für das Erstellen von Videos einlösen könnt. Das macht den Preisvergleich etwas schwierig. Deswegen haben wir mal ausgerechnet, was eine Minute Video bei den unterschiedlichen Anbietern kostet, wenn man bei allen das kleinste Paket bucht, das aber auch Zugriff auf schnellere Generierung und die neuesten Modelle anbietet.

Am günstigsten ist Luma, da kostet eine Minute Video etwa 1,70 Dollar. Bei Pika zahlt ihr umgerechnet 2,57 Dollar. Bei Kling kostet die Minute 6,38 Dollar. Da ist hier aber für jeden Tag, an dem man sich einloggt, gratis Credits gibt, kommt man bei täglichem Einloggen dann nur noch auf 5. Bei RunwayML zahlt ihr sogar 14,40 Dollar pro Minute. Die Preise, die wir hier nennen, sind nicht in Stein gemeißelt, weil da ändert sich auch ständig was an den Credits. Aber so eine Richtung ist auf jeden Fall, dass Kling deutlich günstiger ist als RunwayML.

Wenn ihr die KI-Videos auch kommerziell nutzen wollt, dann braucht ihr ein teureres Abo, also achtet darauf, dass hier Commercial-Use abgedeckt ist. Und klar, bei den lokalen Modellen habt ihr die Anschaffungskosten für einen High-End-PC, also wenn ich hier auf meiner Kiste permanent 24/7 Videos rechnen würde, dann würde das bei 30 Cent pro Kilowattstunde 141 Euro im Monat kosten, weil die Karre beim Videoberechnen halt mit 700 Watt da vor sich hin rödelt.

Also, es ist definitiv möglich, mit den heute schon verfügbaren KI-Systemen gute Videos zu erzeugen und manchmal sogar Videos, die wie echt aussehen. Aber euch jetzt zu sagen, welches jetzt das Beste ist, das ist halt wirklich sehr, sehr, sehr wichtig. Und das ist auch, weil es ja so eine Dynamik ist in diesem Markt, also gerade weil ja eben auch die ganzen großen KI-Player wie OpenAI, Google und Meta alle Sachen angekündigt haben. Ja, es ist jetzt hier eine Momentaufnahme. Ich fühle mich jetzt auch wirklich nicht in der Lage, euch da jetzt irgendwas konkret zu empfehlen. Und ich kann auch schlecht prognostizieren, welches System sich da so anschickt, ja, Marktführer zu werden. Also das ist alles sehr dynamisch.

Entscheidend ist auf jeden Fall der persönliche Geschmack. Ihr habt ja jetzt hier ziemlich viele Beispielvideos gesehen, die wir berechnet haben, also habt ihr vielleicht jetzt ein Gefühl dafür bekommen, wie die Dinger so aussehen. Auf den Websites von den Tools könnt ihr auch noch tausende weitere Beispiele angucken. Also die haben alle so einen eigenen Style, so einen eigenen Flavor und da guckt ihr euch am besten an, was euch da am besten gefällt.

Was ziemlich schade ist, viele Funktionen, die die Plattformen eigentlich haben, funktionieren zumindest im Moment nur mit den älteren Modellen. Also ich habe da immer die Wahl, ob ich halt bessere Videos haben will oder mehr Kontrolle über nicht so gute Videos. Gut, das ist ein Prozess und wird sicherlich in ein paar Monaten auch schon wieder ganz anders aussehen. Aber die große Frage ist auch, wenn KI-generierte Videos bald super echt aussehen und sich direkt im Schnittprogramm erzeugen lassen, wie kennzeichnet man das eigentlich und wo sind dann die Grenzen? Also wäre das okay, wenn in einer Reportage so eine mini kleine Zwischenszene KI generiert wird oder geht das gar nicht?

Ich meine, auch für uns hier könnte das halt praktisch sein, wenn ich hier beim Aufnehmen eine falsche Zahl sage. Das passiert leider ziemlich häufig, dann könnte man einfach die Lippenbewegung automatisch anpassen. Und ich spreche dann die neue Zahl oder den Satz nochmal ein, also mit so einer KI-Stimme zum Beispiel auch. Also haben wir bisher nicht gemacht, sind wir auch skeptisch, ob wir vielleicht einfach uns committen, das nie zu machen in unseren Videos, weil wir einfach sagen, das ist ja bio und handgemacht. Müssen wir nochmal überlegen.

Also generell habe ich auf jeden Fall das Gefühl, es ist sinnvoll, sich mit dieser KI-Video-Geschichte zu beschäftigen und sich auch KI-Videos bewusst anzuschauen, weil dann steigt die Wahrscheinlichkeit, dass man Fakes in der Video-Geschichte nicht verfolgt. Und das in freier Wildbahn besser erkennen kann. Also ich habe das Gefühl, jetzt wo ich mich mit so viel KI-Videos beschäftigt habe, sehe jetzt auch an Kleinigkeiten ganz gut, dass das Fakes sind.

Ja, wie seht ihr das? Wie steht ihr zu generativer Video-KI? Nutzt ihr das? Braucht ihr das? Wollt ihr das? Meint ihr, ihr braucht das irgendwann? Lehnt ihr das total ab? Schreibt gerne in die Kommentare und natĂĽrlich gerne abonnieren. TschĂĽss.


c't 3003 ist der YouTube-Channel von c't. Die Videos auf c't 3003 sind eigenständige Inhalte und unabhängig von den Artikeln im c't Magazin. Die Redakteure Jan-Keno Janssen und Lukas Rumpler sowie die Video-Producer Şahin Erengil und Pascal Schewe veröffentlichen jede Woche ein Video.

(rum)