KI-Update: Stimmen klonen mit KI

Die eigene Stimme zu klonen, ist mit KI ein Kinderspiel geworden. Wir erklären, wie das funktioniert.

In Pocket speichern vorlesen Druckansicht 40 Kommentare lesen

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externer Podcast (Podigee GmbH) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Podigee GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Lesezeit: 3 Min.

Stimmklone sind im Mainstream angekommen. Pumuckl bekommt im RTL-Reboot die Originalstimme, obwohl sein Sprecher Hans Clarin schon 2005 verstorben ist. Und Apple will im nächsten iOS-Update allen die Möglichkeit geben, ihre Stimmen zu klonen. Das soll laut Apple vor allem Menschen helfen, die ihre Stimme krankheitsbedingt verlieren könnten. Die Kollegen von der c’t haben schon diverse Tools durchgetestet, mit denen man nicht nur die eigene Stimme klonen, sondern auch gleich in einer fremden Sprache sprechen kann.

Podcast: KI-Update

Wie intelligent ist Künstliche Intelligenz eigentlich? Welche Folgen hat generative KI für unsere Arbeit, unsere Freizeit und die Gesellschaft? Im "KI-Update" von Heise bringen wir Euch gemeinsam mit The Decoder werktäglich Updates zu den wichtigsten KI-Entwicklungen. Freitags beleuchten wir mit Experten die unterschiedlichen Aspekte der KI-Revolution.

Wir bei heise online haben bereits im vergangenen September meine Stimme geklont und eine Woche lang als KI-Stimme für den Nachrichten-Podcast „kurz informiert“ getestet. Zu dem Zeitpunkt musste ich etwa zwei Stunden Audiomaterial für ein Basismodell meiner Stimme einsprechen. Das KI-Audio-Startup Aflorithmic erstellte daraus ein erstes Stimmmodell. Wir haben damals besonderen Wert auf die richtige Stimmfärbung gelegt, um dem Klang der Originalstimme möglichst nahezukommen. Das war zwar nicht perfekt, aber ich war überrascht, wie gut die KI sowohl meine Stimme als auch meine Sprachmelodie imitieren konnte.

Heute – nur wenige Monate später – reicht ein 5-minütiger Audioschnipsel und eine KI baut daraus ein Stimmenimitat. Jan-Keno Janssen von c't 3003 hat das in einem YouTube-Video getestet und sprach mit Matthias Lehmann, COO und Mitgründer von Aflorithmic, darüber, wie sowas funktioniert und welche unterschiedlichen Ansätze es für die Stimmsynthese gibt. Das ganze Interview bringen wir Euch heute im Deep-Dive des KI-Updates.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externer Podcast (Podigee GmbH) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Podigee GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Matthias Lehmann erklärt, dass es zwei Herangehensweisen gibt: Die schnelle Variante wird Voice-Transfer genannt. Dafür braucht man nicht viel Material einer Stimme, weil das Modell "nicht von den eigenen Aufnahmen konkret erstellt wird, sondern da liegt schon eine Stimme, die es gibt, die mit tausenden von Sprechern eventuell eingesprochen worden ist. Und da wird einfach nur diese Stimmfarbe drübergelegt." Das klingt dann zwar gut, aber nicht wirklich wie die Person, die geklont wird.

Beim zweiten Ansatz, erklärt Matthias Lehmann, geht es darum, "dass man wirklich die Stimmfarbe zu fast 100-Prozent wiedererkennbar macht. Und das ist tatsächlich das richtige Stimmklonen." Dafür braucht man allerdings alle phonetischen Muster, die eine Sprecherin oder ein Sprecher mitbringt und auch die entsprechenden Phoneme, um alle Wörter abbilden zu können. Ein solches Projekt beginnt bei Null. "Das ist aber allerdings sehr, sehr viel mühsamer, weil es halt einfach teilweise Stunden, manchmal auch Tage dauert, um diese Aufnahmen einfach zu machen, weil die ein gewisses Volumen haben müssen, damit man was Vernünftiges hat." Dafür klingt das Ergebnis dann der echten Person zum Verwechseln ähnlich.

Für kürzere Texte eigenen sich beide Ansätze schon heute sehr gut. Bei längeren Texten wirken die KI-Stimmen aufgrund ihres begrenzten "dynamic Range" allerdings eher ermüdend. Noch kommen sie nicht an die lebendige Sprache heran... aber sie kommen ihr immer näher. (igr)