Sechs KI-Videogeneratoren mit Tonspur im Vergleich

OpenAI Sora 2 und Google Veo 3.1 generieren Videos mit Tonspur. Und auch visuell übertreffen sie die Konkurrenz von Adobe, Kling AI und Luma AI deutlich.

Artikel verschenken
vorlesen Druckansicht

(Bild: Ulrike Weis / KI / heise medien)

Lesezeit: 13 Min.
Inhaltsverzeichnis

Die Ära der stummen KI-Videos ist Geschichte: Mit OpenAIs Sora 2 und Googles Veo 3.1 treten Dienste an, die nicht nur bewegte Bilder, sondern auch überzeugende Tonspuren versprechen – von kindlichen Erzählstimmen bis hin zu filmreifen Soundeffekten. Auch der chinesische Anbieter Kling AI versieht KI-Videoclips über DeepSeek mit Soundeffekten und Musik, nicht jedoch mit sprechenden Figuren.

Adobe Firefly, Ray3, Luma AI und Runway ML erzeugen weiterhin nur stumme Clips. Wir haben alle sechs Modelle verglichen – drei mit und drei ohne Soundausgabe.

Mehr zu KI-Videogeneratoren
c’t kompakt
  • Die KI-Videomodelle OpenAI Sora, Google Veo und Kling AI generieren Video-Clips mit Tonspur, die sowohl Sprache als auch Soundeffekte umfasst.
  • Immer noch kämpfen die Dienste mit Logikfehlern, begrenzter Clipdauer und inkonsistenter Animation.
  • Für professionelle Zwecke reicht die Qualität trotz deutlicher Fortschritte noch nicht aus.

Die Videogeneratoren traten im Test anhand von etwas mehr als zehn Aufgaben gegeneinander an. Die Aufgaben teilen sich in drei Blöcke: kindgerechte Animationen, die einfache Abläufe erklären, die Vorstellung eines technischen Geräts als Produktvideo mit sowie ohne menschlichem Avatar und hollywoodreife Filmszenen für Marketing, Werbung, TV oder Kino.

Das war die Leseprobe unseres heise-Plus-Artikels "Sechs KI-Videogeneratoren mit Tonspur im Vergleich". Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.