Bild: Ulrike Weis / KI / heise medien

Ende der Stummfilm-Ära

KI-Videos mit Tonspur: OpenAI Sora 2 gegen Google Veo 3.1

Erstmals liefern KI-Videogeneratoren auch Tonspuren: OpenAI Sora 2 und Google Veo 3.1 bringen Sprache und Sound in KI-Clips, doch bei Stimmqualität, Logik und Dynamik hapert es noch. Wo die KI-Filme der großen Modelle heute stehen, zeigt der Vergleich mit Adobe Firefly, Kling AI oder Runway ML.

Von André Kramer

Die Ära der stummen KI-Videos ist Geschichte: Mit OpenAIs Sora 2 und Googles Veo 3.1 treten Dienste an, die nicht nur bewegte Bilder, sondern auch überzeugende Tonspuren versprechen – von kindlichen Erzählstimmen bis hin zu filmreifen Soundeffekten. Auch der chinesische Anbieter Kling AI versieht KI-Videoclips über DeepSeek mit Soundeffekten und Musik, nicht jedoch mit sprechenden Figuren. Adobe Firefly, Ray3 von Luma AI und Runway ML erzeugen weiterhin nur stumme Clips. Wir haben alle sechs Modelle verglichen – drei mit und drei ohne Soundausgabe.

Die Videogeneratoren traten im Test anhand von etwas mehr als zehn Aufgaben gegeneinander an. Die Aufgaben teilen sich in drei Blöcke: kindgerechte Animationen, die einfache Abläufe erklären, die Vorstellung eines technischen Geräts als Produktvideo mit sowie ohne menschlichen Avatar und hollywoodreife Filmszenen für Marketing, Werbung, TV oder Kino.

Ende der Stummfilm-Ära

KI-Videos mit Tonspur: OpenAI Sora 2 gegen Google Veo 3.1

Angebot auswählen und weiterlesen

Alle heise-Magazine mit heise+ lesen

Das digitale Abo für IT und Technik.

Alle Ausgaben freischalten

Ausgabe einmalig freischalten