Lipsync-Videos selber machen – kostenlos und ohne Cloud

Lipsync-Videos auf dem eigenen Rechner mit aktueller Grafikkarte erstellen: So bringt ein kostenloses Open-Source-Modell Bilder lebensecht zum Sprechen.

Artikel verschenken
vorlesen Druckansicht 16 Kommentare lesen

(Bild: KI, Collage c't)

Lesezeit: 16 Min.
Inhaltsverzeichnis

Mit KI-Tools wie Kling AI oder Heygen kann man virtuelle Figuren verblüffend realistisch zum Sprechen bringen. Inzwischen gibt es aber auch kostenlose lokale KI-Modelle, die Personen neue Worte in den Mund legen – ganz ohne Cloud-Anbindung oder kostspieliges Abo. Das im Mai 2025 veröffentlichte Open-Source-Modell "HunyuanVideo Avatar" läuft auf einer Nvidia-Grafikkarte (ab der 20er-Reihe) mit mindestens 8 GByte Grafikspeicher und erweckt beliebige Fotos zum Leben. Als Vorlagen genügen ein Schnappschuss, eine Audioaufnahme und ein kurzer Text-Prompt. Grob ein Stündchen später entsteht daraus ein kurzes Video, in dem die Person auf dem Foto die gewünschte Passage vorträgt, inklusive Gestik und Mimik.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externes Video (TargetVideo GmbH) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (TargetVideo GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Je nach Kameraeinstellung sind sogar der Körper und der Hintergrund animiert. Der chinesische Tech-Gigant Tencent hat das Modell in Kooperation mit seiner Musik- und Entertainmentsparte entwickelt, damit Nutzer und Werbekunden damit Kurzvideos erstellen können. Es analysiert den Kontext und die Emotionen, um Sprache oder Gesang möglichst lebensecht zu animieren, inklusive Gestik und Mimik. Erfreulich für Tüftler ist, dass Tencent eine Open-Source-Variante des Modells verfügbar macht, die Videos von bis zu 14 Sekunden Länge ermöglicht.

heise+ Kompakt
  • Mit dem kostenlosen Open-Source-Modell HunyuanVideo Avatar lassen sich auf dem eigenen PC realistische Lipsync-Videos aus einfachen Fotos und Sprachaufnahmen erstellen.
  • Die KI arbeitet lokal, benötigt keine Cloud-Anbindung und kommt ohne Abo aus – Voraussetzung ist lediglich eine halbwegs aktuelle Nvidia-Grafikkarte.
  • Im Artikel zeigen wir, wie man das Tool einrichtet, welche Möglichkeiten es bietet und wie sich die Ergebnisse mit Prompts und Einstellungen feintunen lassen.
Mehr zu generativer KI und Language Models

Das genügt für mehrere kurze Einstellungen, aus denen man sich seinen eigenen Kurzfilm zusammenschneidet. Oder man erstellt eine ganz persönliche Videobotschaft, statt nur ein gewöhnliches Foto zu versenden. Wichtig ist dabei natürlich das Einverständnis der abgebildeten Person, um keine Persönlichkeits- oder Urheberrechte zu verletzen. Auch wir bitten ausdrücklich darum, nur eigenes Material zu verwenden. Solche "Deep Fake"-Videos bergen schließlich die Gefahr, für gefälschte Videos oder Fake News missbraucht zu werden.

Das war die Leseprobe unseres heise-Plus-Artikels "Lipsync-Videos selber machen – kostenlos und ohne Cloud ". Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.