c't 3003: Mit KI jede Stimme kopieren

| 07.07.2023 18:28 Uhr Lukas Rumpler

Ein paar Sätze einsprechen und schon hat man eine digitale Kopie seiner Stimme. Geht das so einfach? c't 3003 macht den Test und klont die Stimme von Host Keno.

Nicht nur der Pumuckl bekommt eine kopierte KI-Stimme [1]. Auch unser Moderator Keno spricht jetzt digital. Für das aktuelle c't 3003-Video haben wir seine Stimme mit ElevenLabs geklont. Was steckt hinter dieser Stimm-Cloning-KI und wie funktioniert das eigentlich? c't 3003 findet es heraus.

Transkript des Videos

(Hinweis: Es handelt sich hier um einen Bonusinhalt für Menschen, die das Video oben nicht schauen können oder wollen. Die Informationen auf der Bildspur gibt das Transkript nicht wieder. Zudem sind die Audio-Testausschnitte nicht transkribiert.)

Guckt mal hier, oder besser hört mal hier, solche künstlichen Stimmen kennt ihr ja, hört ihr jeden Tag auf TikTok oder als Antwort von Siri oder Alexa. Was aber neu ist, dass man selbst ganz einfach solche Stimmen bauen kann. Und auch mich gibt's jetzt als KI-Stimme. Das geht mittlerweile wirklich einfach im Browser über Anbieter wie ElevenLabs. Ich tippe hier einfach ein, was ich sagen will und einen Klick später klingt das dann so. Of course, I speak English like a British native speaker! Do you want a cup of tea, my dear? बेशक, मैं हिंदी भी बहुत अच्छी बोलता हूं।. Y por supuesto hablo español perfectamente como Jorge González.

Und ja, dieses Stimmenklonen ist jetzt wirklich im Mainstream angekommen. Selbst der Pumuckl bekommt im RTL-Reboot die Originalstimme, obwohl sein Sprecher Hans Clarin schon 2005 verstorben ist. Und Apple will im nächsten iOS-Update allen die Möglichkeit geben, ihre Stimmen zu klonen. Das soll laut Apple vor allem Menschen helfen, die ihre Stimme krankheitsbedingt verlieren könnten. In Zukunft könnten damit sogar Synchronsprecher ersetzt werden und einfach eine geklonte Stimme von US-Schauspielern zum Beispiel Deutsch sprechen. Oder Podcaster könnten eine digitale Urlaubsvertretung bekommen. Das wird groß, das Thema. Wir schauen uns heute mal an, welchen Mehrwert solche KI-Text-zu-Sprache-Dienste gegenüber den Standard-Sprachausgaben in Betriebssystemen haben und wie das eigentlich in der Praxis funktioniert. Wir haben mit Leuten gesprochen, die solche Stimmen anbieten und sogar Otto haben wir nachgebaut. Bleibt dran.

Liebe Hackerinnen, liebe Internetsurfer, herzlich Willkommen hier bei…

Ja, KI-Stimmen begleiten uns heute schon im Alltag. Und das wird definitiv noch mehr. Bei vielen TikToks zum Beispiel ist die Off-Voice schon von einer KI generiert. Und das hört man auch. Ist aber den meisten Nutzern offenbar eher egal. Das ist ja fast schon so ein Stilmittel auf der Plattform. Aber solche KI-Stimmen kann man auch schon mit viel besserer Qualität kriegen. Zum Beispiel mit Online-Diensten wie ElevenLabs. Ich gehe einfach auf die ElevenLabs-Seite, wähle hier einen Sprecher aus und gebe den Text ein. Dann kann ich zum Beispiel den Text von unserem Reel über Opera One hier eingeben und hier in den Voice Settings auswählen, wie stabil die Stimme sein soll. Hier müsst ihr auf den schmalen Grat zwischen zu künstlich und zu kaputt kommen. Und dann klingt das Ganze so.

Ja gut, viel spannender ist es aber jetzt, wie ich selbst in so einer KI-Stimme klingen würde. Und auch das ist mit ElevenLabs möglich. Allerdings nur wenn man ein Abo hat. Das kostet ab 5 US-Dollar im Monat. Ich klicke hier auf VoiceLab und dann auf Instant-Voice-Cloning. Da muss ich ein paar Audio-Sprachaufnahmen von mir hochladen. Die sollen deutlich sein und ohne Hintergrundgeräusche. Das müssen aber nur fünf Minuten sein. Alles, was mehr als fünf Minuten ist, sagt ElevenLabs, bringt dann nicht mehr viel. Und wenn das dann hochgeladen ist, dann ist die Berechnung wirklich instant. Die Berechnung dauerte bei unseren Tests weniger als drei Sekunden. Ich habe das mit unterschiedlichen Settings ausprobiert. Dabei ist mir aufgefallen, dass die Stimmen alle irgendwie „Englisch denken“. Also die KI mit englischen Aufnahmen zu füttern, sorgt auch für bessere deutsche Ergebnisse. Hört mal hier.

Und krasser Nebeneffekt, das Ganze poliert meine Englisch Skills auf und lässt mich deutlich besser klingen als in der Ausgangsdatei. Hier mal der Anfang von Neuromancer, wie ich das mit meinem fiesen deutschen Akzent gelesen habe. Und was ElevenLabs daraus macht mit meiner Stimme. Ja, sowieso Englisch, da bislang die meiste Arbeit ins Englische gesteckt worden ist bei diesen KI-Sachen, klingen englischsprachige Sachen allgemein besser als Deutsche. Ihr habt ja gerade schon die deutsche TikTok-Stimme gehört, hier mal die Englische. Ja, ist besser, oder? Und schaut mal hier, das ist ein Promo-Video von ElevenLabs und da spricht Leonardo DiCaprio auf einmal wie Steve Jobs. Oder Bill Gates. Und das ist schon ziemlich überzeugend.

Allerdings ist es nicht nur überzeugend, sondern auch gefährlich. Gerade was Telefonbetrug angeht. Der bekommt durch geklonte Stimmen nämlich nochmal eine ganz neue Dimension. Stellt euch mal vor, jemand ruft bei euren Großeltern an und benutzt eure Stimme und fragt nach Geld. Das ist nochmal schwieriger zu durchschauen, als der Enkeltrick sowieso schon ist. Deswegen redet da unbedingt mit euren Verwandten drüber und macht zum Beispiel ein Codewort aus. Und Stichwort Fake News. Relativ lustig, als ein Comedian den Verschwörungs-Heini Alex Jones mit der Stimme vom inzwischen rausgeworfenen Fox-News-Host Tucker Carlson angerufen hat. Aber klar, das gab's früher auch schon, aber dafür musste man Stimm-Imitatoren beauftragen.

Heute geht das am Rechner. Ich habe mal die Tonspur eines einzigen Otto-Waalkes-Interview-Videos von YouTube auf ElevenLabs geworfen. Und jetzt mal kurz Disclaimer: Das Ganze fand im Rahmen einer journalistischen Recherche statt, ich habe die Otto-Stimme auch direkt im Anschluss wieder gelöscht. Macht das nicht selbst, das ist juristisches Glatteis. Ja, so klingt der künstliche Otto jedenfalls. Also ich finde man erkennt das. Ist nicht perfekt, aber schon ganz cool.

Wenn ihr das Ganze Open-Source haben wollt, könnt ihr mal TorToiSe ausprobieren. Dafür braucht ihr aber eine Nvidia-Grafikkarte und vor allem viel Geduld. Der Name Tortoise, Schildkröte, kommt nicht von ungefähr. Bis zu drei Minuten dauert das Generieren eines kurzen Satzes. Ahja und Python solltet ihr auch beherrschen. Ihr ladet euch die notwendigen Dateien von GitHub runter und könnt dann sogar eure eigene Stimme klonen. Spoiler, klappt noch nicht so gut mit TorToiSe. Wenn ihr das trotzdem selber mal ausprobieren wollt, mein Kollege Daniel hat das Ganze auf dem heise online-YouTube-Kanal [2] erklärt und eine Anleitung dazu auf heise online [3] gestellt. Links zu beiden findet ihr in der Beschreibung.

Genau heise online, meine Kollegen da haben schon mal eine Stimme klonen lassen und das aber deutlich aufwendiger als das Instant-Cloning von ElevenLabs. Wenn ihr euch schon mal unseren News-Podcast kurz informiert oder den neuen KI-Update-Podcast angehört habt, dann kennt ihr die Stimme von meiner Kollegin Isabel Grünewald. Und weil Isabels Stimme ebenso wichtig ist, sie aber ja auch mal Urlaub machen möchte, hat Heise zusammen mit dem Unternehmen Aflorithmic ihre Stimme geklont. Aflorithmic ist ein Dienstleister für KI-basierte Medienerstellung und ich frage jetzt mal deren COO Matthias Lehmann, was die da eigentlich genau gemacht haben, um Isabels Stimme zu klonen.

Keno: Hallo Matthias. Ihr habt ja Isabels Stimme geklont. Kannst du vielleicht mal ganz kurz erzählen, wie fängt man da eigentlich an? Wie geht man da vor? Was braucht ihr dafür eigentlich?

Matthias Lehmann: Also, um so eine Stimme zu klonen, braucht man im Prinzip als allererstes Aufnahmen von der Person, die die Stimme klonen lassen will. Das heißt, was wir da im Prinzip machen, ist, wir kreieren ein Skript. Das ist im Prinzip eine Ansammlung von ganz vielen Sätzen. Und in diesen Sätzen sind im Prinzip alle Phoneme, also alle Wortlaute sozusagen drin. Und dann werden diese Aufnahmen im Prinzip gemacht. Das dauert dann so ein paar Stunden. Kommt drauf an, wie viel Qualität man gern haben möchte. Und sobald diese ganzen Aufnahmen dann im Kasten sind, laufen die im Prinzip in ein KI-Modell, werden erstellt und dann kommt am Ende die Stimme hinten bei raus sozusagen. Es ist aber wichtig, dass die in irgendeiner Form einfach Sinn machen, weil das einfach sonst für den Sprecher unglaublich mühsam ist, so Wischi-Waschi-Kram halt einzusprechen. Und es macht einfach mehr Sinn, wenn das ein Text ist, den der Sprecher sozusagen erwartet. Und am Ende läuft da im Prinzip halt einfach ein Programm drüber oder ist einmal drüber gelaufen, um festzustellen, welche Phoneme sind denn jetzt in diesem Skript mit drin. Und wenn die dann so ausbalanciert sind, wie wir das haben oder haben wollen, dann können wir im Prinzip damit loslegen. Und je besser das ausbalanciert ist, desto besser wird im Prinzip auch die Stimme.

Keno: Also ich habe einmal irgendwie Sachen aus dem Kinderbuch vorgelesen. Ich habe einmal Sachen aus einem Roman vorgelesen. Ich habe einfach Sachen aus unseren YouTube-Videos genommen. Und die Stimme hat sich immer anders angehört. Also es war, wie du sagst, sehr stark an den use-case angepasst. Aber ich habe keine Korrelation zwischen, wie viel Material ich da drauf geworfen habe, erkannt. Wie viel ist das denn bei euch? Wie viel muss ich da einsprechen, um meine Stimme klonen zu lassen bei euch?

Matthias Lehmann: Prinzipiell gibt es zwei verschiedene Optionen, wie man eine Stimme klonen kann. Es gibt die schnelle Variante, die Abkürzung, und dann gibt es sozusagen die richtige Stimmklonung. Also das eine nennt man Voice-Transfer. Das ist im Prinzip halt einfach nur, wo die Stimmfarbe des Sprechers auf ein existierendes Modell gelegt wird. Also, wann immer man mit so zehn, 20 Sätzen irgendwas aufnehmen kann, beziehungsweise eine Stimme klonen kann, bedeutet das, dass diese Stimme nicht von den eigenen Aufnahmen konkret erstellt wird, sondern da liegt schon eine Stimme, die es schon gibt, die mit tausenden von Sprechern eventuell eingesprochen worden ist. Und da wird einfach nur diese Stimmfarbe drübergelegt. Und damit kriegt man ein superrobustes Modell hin, was alle möglichen schwierigen Wörter aussprechen kann. Aber es hört sich einfach nicht ganz so sehr wie der Sprecher selber an. Und der zweite Ansatz, da geht es dann halt darum, dass man wirklich die Stimmfarbe zu fast 100-Prozent wiedererkennbar macht. Und das ist tatsächlich das richtige Stimmklon. Und da braucht man im Prinzip diese ganzen phonetischen Muster, die der Sprecher halt mitbringt, beziehungsweise auch die entsprechenden Phoneme, um alle Wörter abbilden zu können. Weil man tatsächlich von Null dieses Projekt aufbaut und diese Stimme aufbaut. Und am Ende hört sie sich dann auch wirklich eins zu eins genauso an, wie du oder ich. Das ist eigentlich das richtige Stimmklon. Das ist aber allerdings sehr, sehr viel mühsamer, weil es halt einfach teilweise Stunden, manchmal auch Tage dauert, um diese Aufnahmen einfach zu machen, weil die müssen ein gewisses Volumen haben, damit man dann was Vernünftiges hat.

Keno: Was glaubst du denn, wann ist wirklich der Zeitpunkt gekommen, wo wirklich niemand mehr die natürliche von der geklonten Stimme unterscheiden kann? Was wäre da deine These? Wie lange dauert das noch?

Matthias Lehmann: Das ist die Singularität sozusagen. Die Singularität der Sprach-KI. Das kommt ein bisschen darauf an. Das muss man, glaube ich, sehr differenziert sehen. Also, wenn es um kurze Sachen geht, glaube ich, sind wir schon sehr, sehr nah dran. Wenn es darum geht, irgendwie ein paar Wörter zu sprechen, vielleicht auch so ein hybrides Modell, wo man einen echten Sprecher hat und dann einfach nur so vielleicht so Städtenamen oder Produkte oder Preise einfach mit einer KI-Stimme des Sprechers eingesprochen werden und das dann im Prinzip vermischt wird. Das ist, glaube ich, schon heute da, beziehungsweise ist es irgendwie bei den hohen 90-Prozentigern. Und wenn es darum geht, längere Texte, sagen wir mal, so ein Audiobuch ist zum Beispiel sehr, sehr schwierig. Ein Audiobuch so hinzubekommen, dass man über 1500 Seiten beim Anhören, dass man da bei der Sache bleibt und da das Hirn nicht abschweift, das ist immer noch sehr, sehr schwierig. Und das wird auch noch eine ganze Weile dauern. Zur Erklärung, warum das so ist: Also diese synthetischen Modelle, die haben im Prinzip etwas, das nennt man Dynamic Range. Man kann das Wort "Ich" verschiedener aussprechen. Als Mensch würde ich "Ich" manchmal mehr betonen, manchmal weniger. Ich würde es mal laut, mal leiser sagen, obwohl es super easy auszusprechen ist und hat auch nur eine Silbe. Das kann ein Stimmmodell noch nicht unbedingt. Das heißt, das wird bestimmte Ausdrucksweisen immer wieder wiederholen. Und das führt dazu, dass das menschliche Hören einfach irgendwann abdriftet, weil so die Stimulierung fehlt oder der Stimulus fehlt, um dabei zu bleiben. Da sind einfach Modelle noch nicht so weit. Die werden immer besser. Wir haben jetzt schon so Atemgeräusche drin, was viele Kunden supergut finden, was halt einfach echter wirkt. Und bis wir da wirklich da sind, dass es diese Singularität sozusagen erreicht, denke ich mal, bei längerem Content werden wir da sicherlich noch Jahre brauchen, um da hinzukommen. Wobei das eine gefährliche Aussage ist.

Keno: Ja, danke, Matthias.

Es gibt also diese professionellen Anwendungsgebiete für KI-Stimmen und dann so das persönliche Entertainment. Irgendwo dazwischen ist David Guetta, der mit so einem KI-Text-to-Speech-Tool sogar Eminem in sein Set geholt hat. Das sah so aus. Also wie man auf unterschiedliche Art und Weise Stimmen klonen, haben wir jetzt gezeigt. Noch weniger Arbeit macht das mit der Plattform UberDuck. Die ist weniger für Nutzer, die professionelle Videos vertonen möchten, sondern ist, würde ich mal sagen, mehr so eine Spaßplattform im Moment. Da gibt es über 5000 Stimmen von Schauspielerinnen, Schauspielern, Serienfiguren, Filmfiguren, Comicfiguren. Wichtig, auch hier gilt, dass ihr die Stimmen nicht für kommerzielle Zwecke einsetzen dürft. Auch nicht in euren Social Media Videos oder so. Das kann richtig Ärger geben. An sich ist UberDuck recht simpel aufgebaut. Ihr könnt einfach hier nach Kategorien suchen und in der rechten Spalte dann nach der gewünschten Stimme. Schneller geht das, wenn ihr einfach direkt eingebt, wen ihr haben wollt. Großer Nachteil, die Stimmen funktionieren nur auf Englisch, zumindest haben wir in unserem Test keine Stimmen gefunden, die auf Deutsch gut geklungen hätten. Dafür gibt es aber einige gute englischsprachige Stimmen, die ihr einfach mit dem Gratis-Account direkt verwenden könnt. Wir können beispielsweise Homer Simpson sagen lassen, dass er gerne c‘t 3003 schaut. Oder Super Mario sagt, dass er und Peach natürlich schon abonniert haben.

Das ganze Thema ist aber nicht nur für lustige Promi-Stimmen oder, dass Medienhäuser das Produktiv in ihrer Arbeit einsetzen können. Es gibt leider auch Menschen, die aufgrund von Krankheiten ihre Stimme verlieren. Prominentes Beispiel dafür ist wahrscheinlich Stephen Hawking. Der ist ja für seine künstliche Stimme bekannt und für diese Menschen wäre es ja schon lebensverändert, wenn sie ihre natürliche Stimme irgendwie archivieren und dann digital weiterverwenden können. Apple plant genau dafür in der nächsten iOS-Version ein Feature unter Bedienungshilfen namens Personal Voice. Eine Stunde muss man dann dafür ins iPhone bestimmte Sätze einsprechen und bekommt dann die Möglichkeit, auf die digitale Version der eigenen Stimme zuzugreifen. Zudem soll man dann bestimmte Sätze auf Schnellzugriff haben. Da müssen Leute, die keine Stimme mehr haben, nicht immer jedes Wort eintippen. Das klingt jetzt in den Beta-Versionen noch nicht so gut, ist so etwas unterhalb von ElevenLabs Niveau. Aber ich kann mir vorstellen, dass das in den nächsten Jahren noch deutlich besser wird. Und durch die Integration ins Telefon ist das eben auch super zugänglich.

Neben ElevenLabs und UberDuck und Apple gibt es natürlich auch noch viele andere Anbieter für so künstliche Spracherzeugung. Mein Kollege Kai Schwirzke hat für die c‘t insgesamt sieben Text-to-Speech Anbieter verglichen. Den Artikel findet ihr hier. [4]

Mein Fazit: Ich finde das wirklich beeindruckend, wie wir von den roboterhaften Siris und Alexas jetzt an einem Punkt sind, wo man zumindest auf Englisch nicht mehr auf Anhieb merkt, dass man gerade einer KI-Stimme zu hört. Klar, gerade auf Deutsch ist, das noch nicht perfekt und es dauert, auch sicher noch etwas, bis die Technik so weit ist, dass meine Stimme so klingt und nicht mehr so. Aber diese Technik bringt eben auch krasse Chancen. Ich könnte durch so Instant-Voice-Translation zum Beispiel einfach die Videos auf diesem Kanal auch in anderen Sprachen anbieten. Oder im nächsten Urlaub einfach ein Smartphone dazwischen halten, dass das, was ich sage, dann instant übersetzt und dann eben in meiner Stimme die Übersetzung ausgibt. Oder eure Freunde können sich eure Messages in eurer Stimme als Sprachi anhören. Oder du kannst dir auf Streaming-Plattformen aussuchen, welchen Synchronsprecher oder Synchronsprecherin du haben möchtest, weil dir eben verschiedene Stimmen angeboten werden. Das macht zum Beispiel RTL mit der Stimme von Pumuckl. Der Sprecher Hans Clarin, dessen Stimme ihr vielleicht noch im Kopf habt, wurde für die Neuauflage geklont und so kann man, wenn es rauskommt, Ende des Jahres zwischen der Stimme von Hans Clarin und der des Schauspielers Maxi Schafroth auswählen.

Und ich bin mir ziemlich sicher, dass wir in unserem Videoproduktionsprozess sowas zumindest bald als Flicken einsetzen. Das heißt, wenn uns nach der Aufnahme auffällt, dass ein Wort falsch ausgesprochen wurde oder so, dann lässt sich das mit meiner KI-Stimme auffüllen. Das fände ich auch ethisch total vertretbar. Ansonsten würde ich mir aber wünschen, dass KI-Stimmen in Medien in Zukunft gerade bei längeren Passagen explizit deklariert werden. Also ich will jedenfalls wissen, ob ich einem echten Menschen gerade zuhöre oder einem Computer. Wie seht ihr das? Habt ihr ein Problem damit, wenn zum Beispiel Medien KI-Stimmen einsetzen oder seid ihr da grundsätzlich offen für? Oder wie ist sonst eure Meinung zu KI-Stimmen und KI-Stimm-Cloning? Schreibt es gerne in die Kommentare und abonnieren natürlich, wie Mario sagt. Tschüss!

c't 3003 [5] ist der YouTube-Channel von c't. Die Videos auf c’t 3003 sind eigenständige Inhalte und unabhängig von den Artikeln im c’t magazin. Die Redakteure Jan-Keno Janssen und Lukas Rumpler sowie die Video-Producer Şahin Erengil und Pascal Schewe veröffentlichen jede Woche ein Video.

(rum [7])

URL dieses Artikels:
https://www.heise.de/-9210251

Links in diesem Artikel:
[1] https://www.heise.de/news/RTL-vertont-neue-Pumuckl-Serie-mit-KI-Stimme-9187613.html
[2] https://www.youtube.com/watch?v=Ng_3qZk4Yow
[3] https://www.heise.de/%2Fratgeber%2FStimmen-nachahmen-mit-KI-TorToiSe-ausprobiert-8990577.html
[4] https://www.heise.de/tests/KI-Stimmen-Sieben-Anbieter-fuer-Text-to-Speech-im-Vergleich-9156580.html
[5] https://www.youtube.com/channel/UC1t9VFj-O6YUDPQxaVg-NkQ
[6] https://www.heise.de/ct
[7] mailto:rum@heise.de