Chancen und Risiken der Sprachsynthese

Durch KI lässt sich die menschliche Stimme bereits klonen und verändern. Eine neue Software geht nun einen Schritt weiter und bietet Nutzern an, die eigene Stimme zu lizenzieren und zu verkaufen.

In Pocket speichern vorlesen Druckansicht 10 Kommentare lesen
Chancen und Risiken der Sprachsynthese

(Bild: https://replicastudios.com/)

Lesezeit: 8 Min.
Von
  • Kim Sartorius
Inhaltsverzeichnis

Letzte Nacht träumte ich davon, auf einer Raupe zu reiten.“ Liest man diesen oder ähnliche vorgefertigte Sätze der Sprachsynthese-Software Replica vor, erstellt sie daraus eine Kopie der eigenen Stimme. Dabei gilt: Je mehr Stimmproben man einspricht, desto realistischer klingt das Resultat. Ob die Software die Stimme noch verbessern kann, sieht man an einer Bewertungsskala von null bis fünf. Bei null gibt es noch Verbesserungspotenzial – fünf steht dafür, dass Replica genug Material hat, um einen realistischen Stimm-Klon zu erzeugen. Um die kopierte Stimme in Aktion zu erleben, gibt man Texte in ein Dialogfenster ein und klickt auf Play. Schon hört man seine eigene Stimme Sätze sagen, die man nie aufgenommen hat.

Um eine Kopie der ­eigenen Stimme zu erhalten, muss man Replica mehrere vorgegebene Sätze vorlesen. Je mehr Sprachproben man aufnimmt, desto realistischer fällt das Resultat aus.

(Bild: https://replicastudios.com/voices/)

Das Programm des australischen Herstellers Replica Studios ist nicht die erste Software ihrer Art. Sprachsynthese-Programme wie Lyrebired versprechen ähnliche Ergebnisse. Die Software des gleichnamigen kanadischen Start-ups hatte mit Videos für Aufsehen gesorgt, in denen sie bekannten Politiker selbst erstellte Sätze in den Mund legten. „This night I’m happy to share with you a short announcement about a cool start-up called Lyrebird.“ verkündet etwa Ex-Präsident Barack Obama. Dass es sich dabei um eine künstlich erzeugte Stimme handelt, fällt bei genauerem Hinhören zwar auf, es klingt aber schon sehr echt. Die Beta-Version des Programmes, die bis vor Kurzem online zur Verfügung stand, gibt es allerdings nicht mehr. Auch Adobe hatte mit seiner Software VoCo bereits 2016 einen funktionierenden Prototypen präsentiert. Das Programm schaffte es aber nie über die Beta-Phase hinaus. Ein Grund hierfür könnte die negative mediale Resonanz gewesen sein, die auf die Vorstellung der Software folgte. Der Gedanke an illegal verwendete Stimmkopien erschien damals noch abschreckend.

Das australische Start-up Lyrebird erstellte täuschend echte Stimmkopien bekannter Politiker und verwendete diese zu Demonstrationszwecken in Videos.

(Bild: https://youtu.be/YfU_sWHT8mo)

Replica bietet ähnliche Funktionen wie Lyrebird und plant, aus seinem Programm einen Marktplatz für Stimmen zu machen. Sprecher für Animationsfilme oder Hörbücher hätten so die Möglichkeit, ihre Stimme nach einmaligem Kopieren per Lizenz an Aufnahmestudios zu verkaufen. Das würde Zeit sparen, da man Dialoge nicht mehr einsprechen müsste. Auch in der Spieleproduktion ist das praktisch, da man sich passend zum erstellten Charakter eine Stimme aussuchen und diese verändern kann. Weitere Einsatzgebiete sind Musik und Werbung. Sprachsynthese hat darüber hinaus das Potenzial, Menschen, die etwa an der degenerativen Nervenerkrankung ALS leiden, ihre Stimme wiederzugeben.

In der aktuell verfügbaren Beta-Version lassen sich bereits Stimmen kopieren und vorhandene Sprecher nutzen, um Dialoge zu erstellen. Momentan allerdings nur auf Englisch. Versucht man Texte in anderen Sprachen vorlesen zu lassen, erhält man ein unverständliches, roboterhaftes Resultat. Die englischen Ergebnisse sind für eine Beta-Version aber schon ganz gut. Spricht man beispielsweise das Wort „Hebrew“ konsequent falsch aus, übernimmt die geklonte Stimme diese Eigenheit. Einen Menschen kann man mit Replica aber noch nicht täuschen. Um die Ergebnisse realistischer zu gestalten, gibt es Emotionen wie „wütend“ oder „genervt“, die sich dem Text hinzufügen lassen. Fügt man etwa der Stimme einer alten Frau die Emotion wütend hinzu, spricht sie Ergebnisse in einem aggressiven Tonfall aus. Bei der eigenen Stimme ist der Einsatz von Gefühlen noch nicht möglich. Außerdem hört man bei einigen Emotionen wie „lebendig“ kaum einen Unterschied zur neutralen Version. Zudem beachtet Replica noch keine Tonänderungen bei Satzzeichen. So geht die Stimme bei einem Fragezeichen am Ende des Satzes nicht nach oben. Schreibfehler wie bei „Thisss isrealy awhsome“ bereiten dem Programm hingegen keine Probleme. Es spricht den Satz korrekt aus.

Die übersichtlich gestaltete Oberfläche von Replica ist in fünf Bereiche unterteilt: Dashboard, Projekte, Stimmen, Marktplatz und Integration. Zurzeit befinden sich auf dem Dashboard Demo-Versionen von Replica-Stimmen für verschiedene Einsatzgebiete wie Videospiele und Werbung. Unter „Stimmen“ lassen sich neue Sprecher aufnehmen und Entwürfe speichern. Die Bedienung ist dabei intuitiv. Unter Projekte erhält man einen Überblick über bereits aufgenommene Konversationen. Um schneller rein zu kommen, stellt Replica hier auch Tutorials bereit. Die fertigen Projekte lassen sich über einen Link mit Freunden teilen oder in den Formaten MP3, FLAC, OGG und WAV exportieren. Es besteht auch die Möglichkeit, Aufnahmen einzeln herunterzuladen. Unter dem Punkt Integration befindet sich eine API, die Replica-Nutzern erlaubt, eigene Projekte besser einzubinden. Das Unternehmen empfiehlt dafür die API-Entwicklungsumgebung Postman und bietet eine Schritt-für-Schritt-Anleitung an, mit der Sie direkt loslegen können.

Wie genau Replica beim Training der KI vorgeht, darüber macht der Hersteller keine Angaben. Unter dem Namen Tacotron haben Sprachsyntheseforscher der Universität Cornell jedoch seit 2017 eine Reihe von Studien veröffentlicht, die sich genau mit diesem Thema beschäftigen. Die Forscher arbeiten eng mit Google zusammen und verwenden bei ihrer Arbeit etwa das neuronale Netzwerk WaveNet, das Töne aus einem Tonhöhendiagramm (Mel-Spektogramm) generiert. Für ihr System Tacotron 2 nutzen sie ein Sequenz-zu-Sequenz-Modell, das aus einer Buchstabenfolge eine Sequenz aus Eigenschaften generiert, die schließlich das Audiosignal kodieren. Tacotron 2 wurde mit 24 Stunden Tonmaterial trainiert und erreicht einen „Mean Opinion Score“ (MOS) von 4,525. Hierbei handelt es sich um ein arithmetisches Mittel zur subjektiven Beurteilung guter (5) oder schlechter (1) Sprach- und Bildqualität. Zum Vergleich: Eine menschliche Sprachaufnahme erzielt im Schnitt einen MOS-Wert von 4,58. Probleme gibt es allerdings noch bei der Aussprache von Fremdwörtern. Auch für Echtzeit-Sprachausgabe eignet sich das Modell noch nicht.

Das Tacotron-System basiert im Prinzip auf drei Komponenten: einem Speaker Encoder, einer KI für die Sprachsynthese und einem Vocoder. Beim Speaker Encoder handelt es sich um ein neuronales Netzwerk, dass mit Samples von mehr als 30.000 Sprechern trainiert wurde. Anhand der Trainingssamples erstellt es einen Durchschnitt der menschlichen Sprache. Dieser Schritt ist nur einmal notwendig und sorgt dafür, dass künftige Sprachkopien keine stundenlangen Audioaufnahmen mehr benötigen. Die KI-Sprachsynthese erzeugt für jede neue Aufnahme aus dem Sprachdurchschnitt ein Spektrogramm für den Vocoder, der daraus ein hörbares Ergebnis macht.

In einem Blog-Beitrag berichtet Replica Studios darüber, wie es die Kopien vor Missbrauch schützen will. Zum einen sollen akustische Wasserzeichen helfen, die lizensierten Stimmen als Replica-Stimmen zu kennzeichnen. Zum anderen will Replica Studios andere Plattformen dabei unterstützen, illegale Stimmkopien zu erkennen und eine Ende-zu-Ende-Verschlüsselung für Replica-Nutzer zur Verfügung stellen.

In seiner Datenschutzerklärung behält sich das australische Unternehmen allerdings vor, persönliche Informationen wie Name, Mailadresse, Alter, Kreditkarteninformationen und den Ort zu speichern und Dritten bereitzustellen. Dazu gehören neben Regierungsbehörden auch potenzielle Geschäftspartner von Replica Studios. Zudem behält sich das Unternehmen vor, die Daten an Geschäftspartner außerhalb von Australien weiterzugeben und weist darauf hin, dass es für die Sicherheit der persönlichen Daten keine Garantie gibt.

Die geklonten Stimmen haben das Potenzial, Kreativen ihren Schaffungsprozess zu erleichtern und erkrankten Menschen zu helfen. Aber während neue Technologien auf diesem Gebiet bald die Beta-Phase verlassen sollen, steckt die Frage nach einem sicheren Schutz vor Identitätsdiebstahl noch im Alpha-Stadium fest: Mögliche Schwierigkeiten und Probleme wurden zwar identifiziert, ein zufriedenstellender Lösungsansatz fehlt aber noch. Um die Sprachsynthese-Programme sorgenfrei nutzen zu können, benötigt aber gerade dieser Bereich noch dringend ein Update.

Dieser Artikel stammt aus c't 12/2020. (kim)