Studie: Gehirn verarbeitet geklonte Stimmen anders als natürliche Stimmen

Menschen akzeptieren geklonte Stimmen oft als natürlich. Das Gehirn reagiert auf sie aber anders als auf natürliche Stimmen.

In Pocket speichern vorlesen Druckansicht 20 Kommentare lesen
Ein Sprachassistent mit aktivierter Sprachausgabe, umringt von Symbolen

Geklonte Stimmen verarbeite das Gehirn anders als natürliche Stimmen, sagen Forschende der Universität Zürich.

(Bild: petrmalinak/Shutterstock.com)

Lesezeit: 3 Min.

Das Gehirn reagiert auf künstlich hergestellte Kopien einer Stimme anders als auf natürliche Stimmen, obwohl Menschen die Klone oft als natürlich wahrnehmen. Je nachdem, ob eine natürliche Stimme oder eine Kopie erklingt, sind im Gehirn verschiedene Areale unterschiedlich aktiv. Das haben Forschende der Universität Zürich herausgefunden. Sie haben zwei Hirnareale identifiziert, die auf die akustischen Signale unterschiedlich reagieren.

Jeder Mensch habe ein einzigartiges Stimmprofil, das dabei helfe, den Menschen zu identifizieren, teilen die Forschenden mit. Inzwischen sei es aber möglich, die Stimmen sehr realitätsnah zu klonen. Das Team nahm vier männliche Stimmen auf und kopierten diese. Um die Klone zu erzeugen, haben die Forschenden die paralinguistischen Stimmmerkmale, also etwa Tonhöhe, Sprechpausen oder Intonation, der natürlichen Sprecher-Stimmen auf das linguistische Material eines anderen professionellen Sprechers übertragen. Durch diese Kombination kann die geklonte Stimme Sätze sagen, die die Person mit der originalen Stimme nie ausgesprochen hat. Um die Stimmklone zu erstellen, nutzte das Team die Open-Source Voice Conversion (VC) Software SPROCKET.

Das Team überprüfte zunächst, wie viel menschliche Identität in den Kopien erhalten bleibt. Die 25 Probandinnen und Probanden sollten die Stimmen vergleichen und identifizieren, ob die Stimmen dieselbe Identität haben. Vorgespielt bekamen sie zwei natürliche Stimmen oder eine natürliche und eine geklonte Stimme.

Die Teilnehmenden erkannten die gefälschten Identitäten in zwei Dritteln der Fälle korrekt. "Dies verdeutlicht, dass aktuelle Deepfake-Stimmen zwar nicht perfekt die Identität imitieren, aber das Potenzial haben, die Wahrnehmung von Menschen zu täuschen", sagt Claudia Roswandowitz, Post-Doc am Institut für Computerlinguistik.

In der Untersuchung der aktiven Hirnareale machte ein Teil des mesolimbischen Systems einen Unterschied bei der Erkennung der Stimm-Klone: der Nucleus Accumbens, ein wichtiger Bestandteil des Belohnungssystems im Gehirn. Hörten die Teilnehmenden zwei natürliche Stimmen, war dieses Hirnareal besonders aktiv.

Bei den Teilnehmenden schaltete sich außerdem der auditorische Cortex, der Geräusche analysiert, ein. Er war aktiver, wenn das Team eine Kopie und eine natürliche Stimme abspielte. "Wir vermuten, dass dieses Areal auf die noch nicht perfekte akustische Imitation der 'Deepfake'-Stimmen reagiert und versucht, das fehlende akustische Signal auszugleichen", erklärt Roswandowitz. Am größten war der Aktivitätsunterschied, wenn die generierte Stimme unnatürlicher und unsympathischer als das Original klang. Die Forschenden schließen daraus, dass der Fake-Anteil in den geklonten Stimmen das Hörvergnügen reduziere. "Besonders die neuronalen Mechanismen, die bei der Verarbeitung von Deepfakes identifiziert wurden, verdeutlichen die menschliche Widerstandsfähigkeit gegenüber gefälschten Informationen, die uns im Alltag immer häufiger begegnen", sagt die Wissenschaftlerin.

(are)