Sprechen wie Barack Obama

Mit Hilfe von künstlicher Intelligenz will ein US-Startup in Echtzeit die Stimmen beliebiger Personen nachbilden. Die Technologie funktioniert bemerkenswert gut – und hat erhebliches Missbrauchspotenzial.

1

(Bild: Photo by Gianandrea Villa on Unsplash)

14.03.2019, 06:00 Uhr

Lesezeit: 4 Min.

MIT Technology Review

Von

Will Knight

Mit kostenloser Maschinenlern-Software aus dem Internet ist es inzwischen möglich, die Gesichter von Menschen in Videos auszutauschen. Mit Hilfe von Generative Adversial Networks (GANs) und anderen Verfahren können KI-Forscher darüber hinaus sogar vollkommen künstliche Gesichter erzeugen. Modulate.ai, ein Unternehmen aus dem US-Bundesstaat Massachusetts, setzt diese Technologie nun auf eine andere Weise ein: um die Eigenschaften von Stimmen zu kopieren, zu modellieren und zu manipulieren.

Die Technologie geht weit über einfache Filter hinaus, mit denen man die eigene Stimme klingen lassen kann wie die Star-Wars-Figur Kylo Ren. Mit dem Ansatz ist es möglich, sich jedes beliebige Alter und Geschlecht und jede beliebige Stimmhöhe zu verleihen, und zwar in Echtzeit. Zum Beispiel kann man auf diese Weise ein komplettes Telefongespräch als Frau führen, wenn man ein Mann ist.

Die Stimme mit Daten trainieren

Mehr rund um die Thematik von Künstlicher Intelligenz und Modulationen:

Die Technologie ist nicht perfekt – ein wenig hören sich die unterschiedlichen Stimmen stets nach Trällern an. Aber sie funktioniert bemerkenswert gut und wird besser, wenn sie mehr Daten zu der zur verändernden Stimme sammeln kann. Und sie zeigt, wie rasch Fortschritte beim Maschinenlernen die digitale Realität verändern. Um die Audio-Eigenschaften eines Stimmsignals zu erfassen und zu modellieren, nutzt Modulate GANs. Bei dieser Technologie treten zwei Netzwerke gegeneinander an und versuchen, überzeugend die Eigenschaften eines Datensatzes zu erkennen und zu reproduzieren.

Auf seiner Website bietet Modulate die Stimme von Barack Obama an. Mit genügend Trainingsdaten ließe sich aber ebenso gut die Stimme jeder beliebigen anderen Person generieren, sagt Mike Pappas, Mitgründer und CEO des Unternehmens. Ohne Genehmigung des Originals werde man aber darauf verzichten. Außerdem besteht Pappas darauf, dass es dabei nicht hauptsächlich um Täuschung gehe: „Die Technologie ist nicht dazu gedacht, Menschen zu imitieren“, sagt er, „sie soll neue Möglichkeiten schaffen.“

Der Zielmarkt von Modulate sind Online-Spiele wie Fortnite oder Call of Duty, bei denen Spieler per Mikrofon mit anderen sprechen können. Das kann die Spielerfahrung verbessern, aber auch für Belästigung missbraucht werden.

Ethische Bedenken bei der Stimmveränderung

Charles Seife, der sich als Professor an der NYU mit der Verbreitung von Falschinformationen beschäftigt, bezeichnet die Modulate-Technologie als offenbar deutlich weiter fortgeschritten als andere Verfahren zur Stimmveränderung. Die Möglichkeiten, mit KI Video und Audio zu manipulieren, hätten das Potenzial, die Welt der Medien grundlegend zu verändern, sagt er. „Wir müssen anfangen, darüber nachzudenken, was Realität bedeutet“, so Seife.

Ähnlich äußert sich Tuomas Virtanen, ein Experte für Stimmsynthese und -manipulation an der Universität Tampere in Finnland: „Bislang war die Qualität von Technologien zur Stimmkonversion so schlecht, dass man konvertierte Stimmen problemlos erkennen konnte“, erklärt er. „Aber ich kann mir vorstellen, dass die Qualität in naher Zukunft so gut sein wird, dass Veränderungen nicht mehr so leicht auffallen.“

Modulate ist sich der Tatsache bewusst, dass die Technologie Missbrauchspotenzial hat. Nach Angaben des Unternehmens will es dafür sorgen, dass jeder Kunde, der die Stimme einer anderen Person kopiert, die Erlaubnis dazu hat. Außerdem hat es eine Technologie für Stimm-Wasserzeichen entwickelt, mit deren Hilfe sich kopierte Stimmen erkennen lassen. Auf dieser Grundlage könnte eine Warnung eingespielt werden, wenn zum Beispiel jemand einen gefälschten Telefonanruf versucht.

Das Unternehmen mag in der Lage sein, den Missbrauch der eigenen Technologie einzuschränken, doch andere könnten unabhängig davon ähnliche Technologien entwickeln, die weniger gut geschützt sind. Die große Frage lautet deshalb: Wie verbreitet wird Stimm-Missbrauch werden und wie sensibel dafür wird die Öffentlichkeit?

(sma)

nach oben

Alle Angebote

Newsletter heise-Bot Push Push-Nachrichten

${intro} ${title}