KI macht es möglich: Stimmen klonen für wenige Dollar im Monat

Vor fünf Jahren erlaubten erste Machine-Learning-Systeme das Nachahmen menschlicher Stimmen. Mittlerweile gibt es diese Programme für kleines Geld.

In Pocket speichern vorlesen Druckansicht 30 Kommentare lesen

(Bild: Kelly Sikkema / Unsplash)

Lesezeit: 8 Min.
Von
  • Enno Park
Inhaltsverzeichnis

Darf man die Stimme eines Toten verwenden, um ihm Worte in den Mund zu legen, die er so nie gesagt hat? Dieser Streit entzündete sich anhand einer Dokumentation des Filmemachers Morgan Neville. In "Roadrunner: A Film About Anthony Bourdain" lässt er einen verstorbenen Starkoch sprechen, wobei die Zuschauer nicht erkennen können, welche der angeblichen O-Töne künstlich fabriziert wurden. Das wirft eine ganze Reihe von Fragen auf: Wie viele fiktionale Anteile darf ein Dokumentarfilm noch haben, um so bezeichnet werden zu können? Und wem gehört eigentlich eine Stimme? Diese Fragen müssen dringend geklärt werden, denn das digitale Klonen menschlicher Stimmen ist keine Raketentechnik mehr – und die dafür notwendige Software allgemein verfügbar.

Während überzeugende digitale Stimmen-Imitate erst seit wenigen Jahren zur Verfügung stehen, hat das Erzeugen künstlicher Stimmen eine lange Geschichte. Bereits 1939 entwickelte der Ingenieur Homer Dudley in den Bell Labs einen analogen Stimm-Synthesizer. Der "Voder" konnte gesprochene Sprache mit roboterhafter Stimmen erzeugen, wie sie aus alten Science-Fiction-Filmen bekannt sind. Seither sind auf dieser Technik basierende analoge und später auch digitale Vocoder im militärischen und künstlerischen Einsatz.

Das wahrscheinlich erste digitale Consumergerät mit Sprachsynthese war ausgerechnet ein Lernspielzeug aus orangefarbenem Kunststoff. 1978 las der "Speak & Spell" von Texas Instruments Wörter vor, die die Kinder anschließend auf einer Tastatur buchstabieren sollten. Die gesprochenen Wörter wurden in Echtzeit aus Phonemen zusammengesetzt, die allesamt auf einem TMC0280 Platz fanden, einem Chip, der ausschließlich zur Sprachsynthese entworfen worden war. Bereits ein Jahr später kam "SAM" auf den Markt, der "Software Automatic Mouth", der nicht mehr auf dedizidierte Hardware angewiesen war. SAM unter anderem auf dem Apple II und dem C64, klang aber bisweilen ziemlich bescheiden.

Die Bezeichnung "SAM" für Sprachsynthese-Systeme bürgerte sich so sehr ein, dass Microsoft seinen in Windows 2000 integrierten Sprachsynthesizer ebenfalls so nannte, wobei die Abkürzung hier für "Speech Articulation Model" stand. Zu diesem Zeitpunkt verfügten Apple-Betriebssysteme bereits seit rund 15 Jahren über einen Sprachsyntesizer, der zunächst MacInTalk und später PlainTalk hieß. Die Stimmen dieser Systeme klangen zwar nicht mehr wie Roboter-Karikaturen, aber immer noch so monoton und abgehackt, dass es nicht wirklich Freude machte, sich von diesen Systemen Text vorlesen zu lassen oder sonstwie mit ihnen zu interagieren.

Ab 2011 änderte sich das langsam mit den Sprachassistenten Siri von Apple, Google Assistent, Cortana von Microsoft und natürlich Alexa von Amazon. Die künstlichen Stimmen haben sich im Alltag verbreitet, ohne noch besonders wahrgenommen zu werden. Sie sagen nicht nur in Navis die Fahrtrichtung an, sondern lesen bisweilen sogar bei einigen Lokalradiosendern den voll automatisch erzeugten Verkehrsbericht vor.

Diese künstlichen Stimmen haben gemeinsam, dass sie möglichst generisch klingen und eher nicht an konkrete Personen erinnern sollten. Ganz anders ist das im Fall von behinderten Menschen, die ihre Stimme verloren haben. Wer aus medizinischen Gründen keine Laute mehr artikulieren kann, möchte nicht so gerne wie Siri und Cortana klingen – und im Idealfall die alte Stimme wieder benutzen können. Technisch wäre es kein Problem, eine Person alle möglichen Phoneme aufzeichnen zu lassen, aber solche Aufzeichnungen liegen nur selten nachträglich vor. Und die so zusammengestückelte Sprachausgabe klingt eher fürchterlich, weshalb Sprach-Synthesizer für behinderte Menschen bisher mit vorproduzierten Stimmen arbeiteten.

Abhilfe können hier Machine-Learning-Systeme schaffen, die anhand von möglichst umfangreicher Audioaufnahmen einer Person trainiert werden. Sie reihen bei der Sprachausgabe nicht einfach Phoneme aneinander, sondern sprechen diese in verschiedenen Kontexten unterschiedlich aus, und zwar auf Weise, die für die betreffende Person charakteristisch ist. Kurz: Sie klonen Stimmen.

2016 stellten Google-Forscher "Wavenet" vor, das auf einem Machine-Learning-System der Tochter Deep Mind basiert. Im gleichen Jahr führte Adobe "VoCo" vor, das allerdings nie auf den Markt kam. Zwar gab es ein paar meist erschrocken klingende Medienberichte, aber die Öffentlichkeit nahm zu der Zeit kaum Notiz. Das Klonen von Stimmen ging im Windschatten der damals aufkommenden Deepfakes unter – Videos, in denen ebenfalls mit Hilfe von maschinellem Lernen mäßig überzeugend bekannte Persönlichkeiten imitiert werden.

Dabei könnte das Klonen von Stimmen für größere Probleme sorgen und schneller relevant werden. Wavenet benötigt mittlerweile nur noch fünf Sekunden Ausgangsmaterial, um überzeugende Stimmklone zu generieren. Während Microsoft seine "Custom Neural Voice" nur als Cloud-Service im B2B-Bereich anbietet und missbräuchliche Nutzung vertraglich zu unterbinden versucht, haben Endanwender mit "Replica" und "Descript" die Wahl zwischen zwei Programmen. Descript, dessen Machine-Learning-Komponente auch unter dem Namen "Lyrebird" bekannt ist, eignet sich nicht nur zum Klonen von Stimmen, sondern beherrscht auch eine Reihe von Funktionen, um Audio und Video zu editieren. Es kann unter anderem auch gesprochene Sprache in Text umwandeln – und umgekehrt.

Die Pro-Version hat eine Funktion namens Overdub, die es erlaubt, mit der eigenen Stimme gesprochene Passagen nachträglich wie in einem Textverarbeitungsprogramm zu editieren. Damit das funktioniert, muss das Programm die Stimme erlernen, was durch mindestens zehnminütiges Vorlesen eines Trainigstextes geschieht. Einige Podcaster und Streamer verwenden die Software bereits zum schnellen Aufpolieren ihrer Produktionen. Einige experimentieren damit, gar nicht mehr selbst zu sprechen, sondern ihre zuvor geschriebenen Texte vom System vorlesen zu lassen, was durchaus viel Zeit sparen kann.

Wer Descript jedoch benutzen will, um Stimmen anderer Menschen gegen ihren Willen zu klonen, muss tricksen, denn das Programm lässt sich vor Aufzeichnung einer Stimme die Zustimmung bestätigen. Dafür werden andere Tools früher oder später mehr oder weniger einfachen Stimmdiebstahl ermöglichen. Geklonte Stimmen können sehr echt klingen, sodass sich mit ihnen produzierte Audiotracks kaum von echten Studioaufzeichnungen unterscheiden lassen. Am ehesten fallen sie dadurch auf, dass sie ein wenig zu perfekt klingen, keinn Räuspern und keine Störgeräusche enthalten und die imitierten Personen je nach untergeschobenem Text auf unnatürliche Weise "wie gedruckt" sprechen.

Echte Betrugsfälle, bei denen mit Hilfe von gefälschten Stimmen Schaden verursacht wurden, sind bisher nicht bekannt geworden. Früher oder später wird das jedoch geschehen und dann muss vielleicht vor Gericht geklärt werden, ob eine Person bestimmte Sätze gesagt hat oder nicht. Denkbar wäre, dass entsprechend trainierte Machine-Learning-Systeme ihrerseits in der Lage sein werden, Fälschungen zu erkennen, wenn Menschen das nicht mehr können. Das wiederum würde ein Katz- und Mausspiel der jeweiligen Software-Entwickler nach sich ziehen.

Doch auch jenseits von Betrug, der heute schon gegen Persönlichkeitsrechte verstoßen würde, wirft das Klonen von Stimmen ethische Fragen auf. Sollten oder dürfen beispielsweise Schauspieler, Sprecher und Journalisten ihre Stimmen an Medienhäuser lizenzieren? Sie müssten dann nichts mehr selbst einsprechen, aber damit leben, dass mit ihrer Stimme gegen Lizenzgebühr Dinge öffentlich gesagt werden, die auszusprechen sie sich vielleicht geweigert hätten. Und wie ist mit den Stimmen toter Menschen zu verfahren? Verstößt ein Chatbot mit der Stimme eines Verstorbenen gegen die Pietät oder wäre das eine neue Form von Trauerarbeit? Darf man überhaupt, wie im eingangs erwähnten Film "Roadrunner", tote Menschen sprechen lassen? Und wer entscheidet das? Die Hinterbliebenen? Es sieht derzeit danach aus, als habe die technische Entwicklung hier einmal mehr Recht und Ethik vorerst überholt.

(bsc)