zurück zum Artikel

c't 3003: Mit KI jede Stimme kopieren

| Lukas Rumpler

Ein paar SĂ€tze einsprechen und schon hat man eine digitale Kopie seiner Stimme. Geht das so einfach? c't 3003 macht den Test und klont die Stimme von Host Keno.

Nicht nur der Pumuckl bekommt eine kopierte KI-Stimme [1]. Auch unser Moderator Keno spricht jetzt digital. FĂŒr das aktuelle c't 3003-Video haben wir seine Stimme mit ElevenLabs geklont. Was steckt hinter dieser Stimm-Cloning-KI und wie funktioniert das eigentlich? c't 3003 findet es heraus.

(Hinweis: Es handelt sich hier um einen Bonusinhalt fĂŒr Menschen, die das Video oben nicht schauen können oder wollen. Die Informationen auf der Bildspur gibt das Transkript nicht wieder. Zudem sind die Audio-Testausschnitte nicht transkribiert.)

Guckt mal hier, oder besser hört mal hier, solche kĂŒnstlichen Stimmen kennt ihr ja, hört ihr jeden Tag auf TikTok oder als Antwort von Siri oder Alexa. Was aber neu ist, dass man selbst ganz einfach solche Stimmen bauen kann. Und auch mich gibt's jetzt als KI-Stimme. Das geht mittlerweile wirklich einfach im Browser ĂŒber Anbieter wie ElevenLabs. Ich tippe hier einfach ein, was ich sagen will und einen Klick spĂ€ter klingt das dann so. Of course, I speak English like a British native speaker! Do you want a cup of tea, my dear? à€Źà„‡à€¶à€•, à€źà„ˆà€‚ à€čà€żà€‚à€Šà„€ à€­à„€ à€Źà€čà„à€€ à€…à€šà„à€›à„€ à€Źà„‹à€Čà€€à€Ÿ à€čà„‚à€‚à„€. Y por supuesto hablo español perfectamente como Jorge GonzĂĄlez.

Und ja, dieses Stimmenklonen ist jetzt wirklich im Mainstream angekommen. Selbst der Pumuckl bekommt im RTL-Reboot die Originalstimme, obwohl sein Sprecher Hans Clarin schon 2005 verstorben ist. Und Apple will im nĂ€chsten iOS-Update allen die Möglichkeit geben, ihre Stimmen zu klonen. Das soll laut Apple vor allem Menschen helfen, die ihre Stimme krankheitsbedingt verlieren könnten. In Zukunft könnten damit sogar Synchronsprecher ersetzt werden und einfach eine geklonte Stimme von US-Schauspielern zum Beispiel Deutsch sprechen. Oder Podcaster könnten eine digitale Urlaubsvertretung bekommen. Das wird groß, das Thema. Wir schauen uns heute mal an, welchen Mehrwert solche KI-Text-zu-Sprache-Dienste gegenĂŒber den Standard-Sprachausgaben in Betriebssystemen haben und wie das eigentlich in der Praxis funktioniert. Wir haben mit Leuten gesprochen, die solche Stimmen anbieten und sogar Otto haben wir nachgebaut. Bleibt dran.

Liebe Hackerinnen, liebe Internetsurfer, herzlich Willkommen hier bei


Ja, KI-Stimmen begleiten uns heute schon im Alltag. Und das wird definitiv noch mehr. Bei vielen TikToks zum Beispiel ist die Off-Voice schon von einer KI generiert. Und das hört man auch. Ist aber den meisten Nutzern offenbar eher egal. Das ist ja fast schon so ein Stilmittel auf der Plattform. Aber solche KI-Stimmen kann man auch schon mit viel besserer QualitĂ€t kriegen. Zum Beispiel mit Online-Diensten wie ElevenLabs. Ich gehe einfach auf die ElevenLabs-Seite, wĂ€hle hier einen Sprecher aus und gebe den Text ein. Dann kann ich zum Beispiel den Text von unserem Reel ĂŒber Opera One hier eingeben und hier in den Voice Settings auswĂ€hlen, wie stabil die Stimme sein soll. Hier mĂŒsst ihr auf den schmalen Grat zwischen zu kĂŒnstlich und zu kaputt kommen. Und dann klingt das Ganze so.

Ja gut, viel spannender ist es aber jetzt, wie ich selbst in so einer KI-Stimme klingen wĂŒrde. Und auch das ist mit ElevenLabs möglich. Allerdings nur wenn man ein Abo hat. Das kostet ab 5 US-Dollar im Monat. Ich klicke hier auf VoiceLab und dann auf Instant-Voice-Cloning. Da muss ich ein paar Audio-Sprachaufnahmen von mir hochladen. Die sollen deutlich sein und ohne HintergrundgerĂ€usche. Das mĂŒssen aber nur fĂŒnf Minuten sein. Alles, was mehr als fĂŒnf Minuten ist, sagt ElevenLabs, bringt dann nicht mehr viel. Und wenn das dann hochgeladen ist, dann ist die Berechnung wirklich instant. Die Berechnung dauerte bei unseren Tests weniger als drei Sekunden. Ich habe das mit unterschiedlichen Settings ausprobiert. Dabei ist mir aufgefallen, dass die Stimmen alle irgendwie „Englisch denken“. Also die KI mit englischen Aufnahmen zu fĂŒttern, sorgt auch fĂŒr bessere deutsche Ergebnisse. Hört mal hier.

Und krasser Nebeneffekt, das Ganze poliert meine Englisch Skills auf und lĂ€sst mich deutlich besser klingen als in der Ausgangsdatei. Hier mal der Anfang von Neuromancer, wie ich das mit meinem fiesen deutschen Akzent gelesen habe. Und was ElevenLabs daraus macht mit meiner Stimme. Ja, sowieso Englisch, da bislang die meiste Arbeit ins Englische gesteckt worden ist bei diesen KI-Sachen, klingen englischsprachige Sachen allgemein besser als Deutsche. Ihr habt ja gerade schon die deutsche TikTok-Stimme gehört, hier mal die Englische. Ja, ist besser, oder? Und schaut mal hier, das ist ein Promo-Video von ElevenLabs und da spricht Leonardo DiCaprio auf einmal wie Steve Jobs. Oder Bill Gates. Und das ist schon ziemlich ĂŒberzeugend.

Allerdings ist es nicht nur ĂŒberzeugend, sondern auch gefĂ€hrlich. Gerade was Telefonbetrug angeht. Der bekommt durch geklonte Stimmen nĂ€mlich nochmal eine ganz neue Dimension. Stellt euch mal vor, jemand ruft bei euren Großeltern an und benutzt eure Stimme und fragt nach Geld. Das ist nochmal schwieriger zu durchschauen, als der Enkeltrick sowieso schon ist. Deswegen redet da unbedingt mit euren Verwandten drĂŒber und macht zum Beispiel ein Codewort aus. Und Stichwort Fake News. Relativ lustig, als ein Comedian den Verschwörungs-Heini Alex Jones mit der Stimme vom inzwischen rausgeworfenen Fox-News-Host Tucker Carlson angerufen hat. Aber klar, das gab's frĂŒher auch schon, aber dafĂŒr musste man Stimm-Imitatoren beauftragen.

Heute geht das am Rechner. Ich habe mal die Tonspur eines einzigen Otto-Waalkes-Interview-Videos von YouTube auf ElevenLabs geworfen. Und jetzt mal kurz Disclaimer: Das Ganze fand im Rahmen einer journalistischen Recherche statt, ich habe die Otto-Stimme auch direkt im Anschluss wieder gelöscht. Macht das nicht selbst, das ist juristisches Glatteis. Ja, so klingt der kĂŒnstliche Otto jedenfalls. Also ich finde man erkennt das. Ist nicht perfekt, aber schon ganz cool.

Wenn ihr das Ganze Open-Source haben wollt, könnt ihr mal TorToiSe ausprobieren. DafĂŒr braucht ihr aber eine Nvidia-Grafikkarte und vor allem viel Geduld. Der Name Tortoise, Schildkröte, kommt nicht von ungefĂ€hr. Bis zu drei Minuten dauert das Generieren eines kurzen Satzes. Ahja und Python solltet ihr auch beherrschen. Ihr ladet euch die notwendigen Dateien von GitHub runter und könnt dann sogar eure eigene Stimme klonen. Spoiler, klappt noch nicht so gut mit TorToiSe. Wenn ihr das trotzdem selber mal ausprobieren wollt, mein Kollege Daniel hat das Ganze auf dem heise online-YouTube-Kanal [2] erklĂ€rt und eine Anleitung dazu auf heise online [3] gestellt. Links zu beiden findet ihr in der Beschreibung.

Genau heise online, meine Kollegen da haben schon mal eine Stimme klonen lassen und das aber deutlich aufwendiger als das Instant-Cloning von ElevenLabs. Wenn ihr euch schon mal unseren News-Podcast kurz informiert oder den neuen KI-Update-Podcast angehört habt, dann kennt ihr die Stimme von meiner Kollegin Isabel GrĂŒnewald. Und weil Isabels Stimme ebenso wichtig ist, sie aber ja auch mal Urlaub machen möchte, hat Heise zusammen mit dem Unternehmen Aflorithmic ihre Stimme geklont. Aflorithmic ist ein Dienstleister fĂŒr KI-basierte Medienerstellung und ich frage jetzt mal deren COO Matthias Lehmann, was die da eigentlich genau gemacht haben, um Isabels Stimme zu klonen.

Keno: Hallo Matthias. Ihr habt ja Isabels Stimme geklont. Kannst du vielleicht mal ganz kurz erzĂ€hlen, wie fĂ€ngt man da eigentlich an? Wie geht man da vor? Was braucht ihr dafĂŒr eigentlich?

Matthias Lehmann: Also, um so eine Stimme zu klonen, braucht man im Prinzip als allererstes Aufnahmen von der Person, die die Stimme klonen lassen will. Das heißt, was wir da im Prinzip machen, ist, wir kreieren ein Skript. Das ist im Prinzip eine Ansammlung von ganz vielen SĂ€tzen. Und in diesen SĂ€tzen sind im Prinzip alle Phoneme, also alle Wortlaute sozusagen drin. Und dann werden diese Aufnahmen im Prinzip gemacht. Das dauert dann so ein paar Stunden. Kommt drauf an, wie viel QualitĂ€t man gern haben möchte. Und sobald diese ganzen Aufnahmen dann im Kasten sind, laufen die im Prinzip in ein KI-Modell, werden erstellt und dann kommt am Ende die Stimme hinten bei raus sozusagen. Es ist aber wichtig, dass die in irgendeiner Form einfach Sinn machen, weil das einfach sonst fĂŒr den Sprecher unglaublich mĂŒhsam ist, so Wischi-Waschi-Kram halt einzusprechen. Und es macht einfach mehr Sinn, wenn das ein Text ist, den der Sprecher sozusagen erwartet. Und am Ende lĂ€uft da im Prinzip halt einfach ein Programm drĂŒber oder ist einmal drĂŒber gelaufen, um festzustellen, welche Phoneme sind denn jetzt in diesem Skript mit drin. Und wenn die dann so ausbalanciert sind, wie wir das haben oder haben wollen, dann können wir im Prinzip damit loslegen. Und je besser das ausbalanciert ist, desto besser wird im Prinzip auch die Stimme.

Keno: Also ich habe einmal irgendwie Sachen aus dem Kinderbuch vorgelesen. Ich habe einmal Sachen aus einem Roman vorgelesen. Ich habe einfach Sachen aus unseren YouTube-Videos genommen. Und die Stimme hat sich immer anders angehört. Also es war, wie du sagst, sehr stark an den use-case angepasst. Aber ich habe keine Korrelation zwischen, wie viel Material ich da drauf geworfen habe, erkannt. Wie viel ist das denn bei euch? Wie viel muss ich da einsprechen, um meine Stimme klonen zu lassen bei euch?

Matthias Lehmann: Prinzipiell gibt es zwei verschiedene Optionen, wie man eine Stimme klonen kann. Es gibt die schnelle Variante, die AbkĂŒrzung, und dann gibt es sozusagen die richtige Stimmklonung. Also das eine nennt man Voice-Transfer. Das ist im Prinzip halt einfach nur, wo die Stimmfarbe des Sprechers auf ein existierendes Modell gelegt wird. Also, wann immer man mit so zehn, 20 SĂ€tzen irgendwas aufnehmen kann, beziehungsweise eine Stimme klonen kann, bedeutet das, dass diese Stimme nicht von den eigenen Aufnahmen konkret erstellt wird, sondern da liegt schon eine Stimme, die es schon gibt, die mit tausenden von Sprechern eventuell eingesprochen worden ist. Und da wird einfach nur diese Stimmfarbe drĂŒbergelegt. Und damit kriegt man ein superrobustes Modell hin, was alle möglichen schwierigen Wörter aussprechen kann. Aber es hört sich einfach nicht ganz so sehr wie der Sprecher selber an. Und der zweite Ansatz, da geht es dann halt darum, dass man wirklich die Stimmfarbe zu fast 100-Prozent wiedererkennbar macht. Und das ist tatsĂ€chlich das richtige Stimmklon. Und da braucht man im Prinzip diese ganzen phonetischen Muster, die der Sprecher halt mitbringt, beziehungsweise auch die entsprechenden Phoneme, um alle Wörter abbilden zu können. Weil man tatsĂ€chlich von Null dieses Projekt aufbaut und diese Stimme aufbaut. Und am Ende hört sie sich dann auch wirklich eins zu eins genauso an, wie du oder ich. Das ist eigentlich das richtige Stimmklon. Das ist aber allerdings sehr, sehr viel mĂŒhsamer, weil es halt einfach teilweise Stunden, manchmal auch Tage dauert, um diese Aufnahmen einfach zu machen, weil die mĂŒssen ein gewisses Volumen haben, damit man dann was VernĂŒnftiges hat.

Keno: Was glaubst du denn, wann ist wirklich der Zeitpunkt gekommen, wo wirklich niemand mehr die natĂŒrliche von der geklonten Stimme unterscheiden kann? Was wĂ€re da deine These? Wie lange dauert das noch?

Matthias Lehmann: Das ist die SingularitĂ€t sozusagen. Die SingularitĂ€t der Sprach-KI. Das kommt ein bisschen darauf an. Das muss man, glaube ich, sehr differenziert sehen. Also, wenn es um kurze Sachen geht, glaube ich, sind wir schon sehr, sehr nah dran. Wenn es darum geht, irgendwie ein paar Wörter zu sprechen, vielleicht auch so ein hybrides Modell, wo man einen echten Sprecher hat und dann einfach nur so vielleicht so StĂ€dtenamen oder Produkte oder Preise einfach mit einer KI-Stimme des Sprechers eingesprochen werden und das dann im Prinzip vermischt wird. Das ist, glaube ich, schon heute da, beziehungsweise ist es irgendwie bei den hohen 90-Prozentigern. Und wenn es darum geht, lĂ€ngere Texte, sagen wir mal, so ein Audiobuch ist zum Beispiel sehr, sehr schwierig. Ein Audiobuch so hinzubekommen, dass man ĂŒber 1500 Seiten beim Anhören, dass man da bei der Sache bleibt und da das Hirn nicht abschweift, das ist immer noch sehr, sehr schwierig. Und das wird auch noch eine ganze Weile dauern. Zur ErklĂ€rung, warum das so ist: Also diese synthetischen Modelle, die haben im Prinzip etwas, das nennt man Dynamic Range. Man kann das Wort "Ich" verschiedener aussprechen. Als Mensch wĂŒrde ich "Ich" manchmal mehr betonen, manchmal weniger. Ich wĂŒrde es mal laut, mal leiser sagen, obwohl es super easy auszusprechen ist und hat auch nur eine Silbe. Das kann ein Stimmmodell noch nicht unbedingt. Das heißt, das wird bestimmte Ausdrucksweisen immer wieder wiederholen. Und das fĂŒhrt dazu, dass das menschliche Hören einfach irgendwann abdriftet, weil so die Stimulierung fehlt oder der Stimulus fehlt, um dabei zu bleiben. Da sind einfach Modelle noch nicht so weit. Die werden immer besser. Wir haben jetzt schon so AtemgerĂ€usche drin, was viele Kunden supergut finden, was halt einfach echter wirkt. Und bis wir da wirklich da sind, dass es diese SingularitĂ€t sozusagen erreicht, denke ich mal, bei lĂ€ngerem Content werden wir da sicherlich noch Jahre brauchen, um da hinzukommen. Wobei das eine gefĂ€hrliche Aussage ist.

Keno: Ja, danke, Matthias.

Es gibt also diese professionellen Anwendungsgebiete fĂŒr KI-Stimmen und dann so das persönliche Entertainment. Irgendwo dazwischen ist David Guetta, der mit so einem KI-Text-to-Speech-Tool sogar Eminem in sein Set geholt hat. Das sah so aus. Also wie man auf unterschiedliche Art und Weise Stimmen klonen, haben wir jetzt gezeigt. Noch weniger Arbeit macht das mit der Plattform UberDuck. Die ist weniger fĂŒr Nutzer, die professionelle Videos vertonen möchten, sondern ist, wĂŒrde ich mal sagen, mehr so eine Spaßplattform im Moment. Da gibt es ĂŒber 5000 Stimmen von Schauspielerinnen, Schauspielern, Serienfiguren, Filmfiguren, Comicfiguren. Wichtig, auch hier gilt, dass ihr die Stimmen nicht fĂŒr kommerzielle Zwecke einsetzen dĂŒrft. Auch nicht in euren Social Media Videos oder so. Das kann richtig Ärger geben. An sich ist UberDuck recht simpel aufgebaut. Ihr könnt einfach hier nach Kategorien suchen und in der rechten Spalte dann nach der gewĂŒnschten Stimme. Schneller geht das, wenn ihr einfach direkt eingebt, wen ihr haben wollt. Großer Nachteil, die Stimmen funktionieren nur auf Englisch, zumindest haben wir in unserem Test keine Stimmen gefunden, die auf Deutsch gut geklungen hĂ€tten. DafĂŒr gibt es aber einige gute englischsprachige Stimmen, die ihr einfach mit dem Gratis-Account direkt verwenden könnt. Wir können beispielsweise Homer Simpson sagen lassen, dass er gerne c‘t 3003 schaut. Oder Super Mario sagt, dass er und Peach natĂŒrlich schon abonniert haben.

Das ganze Thema ist aber nicht nur fĂŒr lustige Promi-Stimmen oder, dass MedienhĂ€user das Produktiv in ihrer Arbeit einsetzen können. Es gibt leider auch Menschen, die aufgrund von Krankheiten ihre Stimme verlieren. Prominentes Beispiel dafĂŒr ist wahrscheinlich Stephen Hawking. Der ist ja fĂŒr seine kĂŒnstliche Stimme bekannt und fĂŒr diese Menschen wĂ€re es ja schon lebensverĂ€ndert, wenn sie ihre natĂŒrliche Stimme irgendwie archivieren und dann digital weiterverwenden können. Apple plant genau dafĂŒr in der nĂ€chsten iOS-Version ein Feature unter Bedienungshilfen namens Personal Voice. Eine Stunde muss man dann dafĂŒr ins iPhone bestimmte SĂ€tze einsprechen und bekommt dann die Möglichkeit, auf die digitale Version der eigenen Stimme zuzugreifen. Zudem soll man dann bestimmte SĂ€tze auf Schnellzugriff haben. Da mĂŒssen Leute, die keine Stimme mehr haben, nicht immer jedes Wort eintippen. Das klingt jetzt in den Beta-Versionen noch nicht so gut, ist so etwas unterhalb von ElevenLabs Niveau. Aber ich kann mir vorstellen, dass das in den nĂ€chsten Jahren noch deutlich besser wird. Und durch die Integration ins Telefon ist das eben auch super zugĂ€nglich.

Neben ElevenLabs und UberDuck und Apple gibt es natĂŒrlich auch noch viele andere Anbieter fĂŒr so kĂŒnstliche Spracherzeugung. Mein Kollege Kai Schwirzke hat fĂŒr die c‘t insgesamt sieben Text-to-Speech Anbieter verglichen. Den Artikel findet ihr hier. [4]

Mein Fazit: Ich finde das wirklich beeindruckend, wie wir von den roboterhaften Siris und Alexas jetzt an einem Punkt sind, wo man zumindest auf Englisch nicht mehr auf Anhieb merkt, dass man gerade einer KI-Stimme zu hört. Klar, gerade auf Deutsch ist, das noch nicht perfekt und es dauert, auch sicher noch etwas, bis die Technik so weit ist, dass meine Stimme so klingt und nicht mehr so. Aber diese Technik bringt eben auch krasse Chancen. Ich könnte durch so Instant-Voice-Translation zum Beispiel einfach die Videos auf diesem Kanal auch in anderen Sprachen anbieten. Oder im nĂ€chsten Urlaub einfach ein Smartphone dazwischen halten, dass das, was ich sage, dann instant ĂŒbersetzt und dann eben in meiner Stimme die Übersetzung ausgibt. Oder eure Freunde können sich eure Messages in eurer Stimme als Sprachi anhören. Oder du kannst dir auf Streaming-Plattformen aussuchen, welchen Synchronsprecher oder Synchronsprecherin du haben möchtest, weil dir eben verschiedene Stimmen angeboten werden. Das macht zum Beispiel RTL mit der Stimme von Pumuckl. Der Sprecher Hans Clarin, dessen Stimme ihr vielleicht noch im Kopf habt, wurde fĂŒr die Neuauflage geklont und so kann man, wenn es rauskommt, Ende des Jahres zwischen der Stimme von Hans Clarin und der des Schauspielers Maxi Schafroth auswĂ€hlen.

Und ich bin mir ziemlich sicher, dass wir in unserem Videoproduktionsprozess sowas zumindest bald als Flicken einsetzen. Das heißt, wenn uns nach der Aufnahme auffĂ€llt, dass ein Wort falsch ausgesprochen wurde oder so, dann lĂ€sst sich das mit meiner KI-Stimme auffĂŒllen. Das fĂ€nde ich auch ethisch total vertretbar. Ansonsten wĂŒrde ich mir aber wĂŒnschen, dass KI-Stimmen in Medien in Zukunft gerade bei lĂ€ngeren Passagen explizit deklariert werden. Also ich will jedenfalls wissen, ob ich einem echten Menschen gerade zuhöre oder einem Computer. Wie seht ihr das? Habt ihr ein Problem damit, wenn zum Beispiel Medien KI-Stimmen einsetzen oder seid ihr da grundsĂ€tzlich offen fĂŒr? Oder wie ist sonst eure Meinung zu KI-Stimmen und KI-Stimm-Cloning? Schreibt es gerne in die Kommentare und abonnieren natĂŒrlich, wie Mario sagt. TschĂŒss!


c't 3003 [5] ist der YouTube-Channel von c't. Die Videos auf c’t 3003 sind eigenstĂ€ndige Inhalte und unabhĂ€ngig von den Artikeln im c’t magazin. Die Redakteure Jan-Keno Janssen und Lukas Rumpler sowie die Video-Producer ƞahin Erengil und Pascal Schewe veröffentlichen jede Woche ein Video.

Mehr von c't Magazin Mehr von c't Magazin [6]

(rum [7])


URL dieses Artikels:
https://www.heise.de/-9210251

Links in diesem Artikel:
[1] https://www.heise.de/news/RTL-vertont-neue-Pumuckl-Serie-mit-KI-Stimme-9187613.html
[2] https://www.youtube.com/watch?v=Ng_3qZk4Yow
[3] https://www.heise.de/%2Fratgeber%2FStimmen-nachahmen-mit-KI-TorToiSe-ausprobiert-8990577.html
[4] https://www.heise.de/tests/KI-Stimmen-Sieben-Anbieter-fuer-Text-to-Speech-im-Vergleich-9156580.html
[5] https://www.youtube.com/channel/UC1t9VFj-O6YUDPQxaVg-NkQ
[6] https://www.heise.de/ct
[7] mailto:rum@heise.de