Digitale Assistenten: Die Stimme verrät es

Aus unserer Stimme lässt sich mehr lesen als gedacht – das zieht ebenso nützliche wie erschreckende Anwendungen nach sich.

(Bild: Amazon)

14.09.2018, 06:00 Uhr

Lesezeit: 13 Min.

MIT Technology Review

Von

Eva Wolfangel

Juni 2023. Peter kommt nach einem langen Arbeitstag nach Hause und nimmt seine Frau Anna in den Arm. Doch diese windet sich heraus und sagt ihm auf den Kopf zu: "Unsere Beziehung wird scheitern, das hat Alexas Eheberatungs-App gesagt." Sie sieht keinen Grund, der Maschine nicht zu trauen: Über die Jahre hat sich gezeigt, dass sie allein aus der Stimme sehr subtile Emotionen erkennen und besser als Psychologen vorhersagen kann, ob eine Beziehung halten oder scheitern wird.

Lesen Sie dazu auch:

Statistik der Woche: Digitale Assistenten

Warum 500 Millionen Menschen in China mit dieser KI sprechen

Intelligenztest für Siri

Alexa sagt, die Beziehung wird nicht halten

Das Gerät hat eine große Datengrundlage: Schließlich hört es dem Paar tagaus, tagein bei allen Unterhaltungen in den eigenen vier Wänden zu – kein Eheberater kann auf so umfangreiche Informationen über eine Beziehung zurückgreifen. Für Anna ist also klar, dass sie nicht weiter in diese Beziehung investieren wird. Sie hat sich schon bei einem Datingportal angemeldet, das sie mit mitfühlender und verständnisvoller Stimme über ihre künftigen Präferenzen befragt hat. Seit sie ihr Stimmprofil aus der Alexa-App hochgeladen hat, kennt das Portal sie ohnehin besser als ihr Noch-Ehemann und vermittelt ihr emotional passende Kandidaten.

So futuristisch, wie es wirkt, ist das gar nicht. Genau genommen ist es teilweise sogar schon Vergangenheit: Bereits vor rund zehn Jahren zeichnete Shrikanth Narayanan von der University of Southern California (USC) in Los Angeles gemeinsam mit Kollegen zwei Jahre lang Hunderte Therapiegespräche aus der Eheberatung auf. Zudem erhielten die Forscher in den folgenden fünf Jahren immer wieder Auskünfte über den Ehestatus der beteiligten Personen. Sie fütterten ihren Algorithmus mit den Stimmdaten, der diese unter anderem nach Faktoren wie Lautstärke und Tonhöhe sowie zittrige oder brechende Stimmen analysierte.

Bessere Prognose als von Therapeuten

Diese Informationen genügten: Das System sagte mit 80-prozentiger Genauigkeit voraus, ob ein Paar nach Ende der Beobachtungsphase noch zusammen war oder nicht – besser als die beteiligten Therapeuten, die das Wissenschaftlerteam ebenfalls um ihre Einschätzung bat. "Ich bin sehr optimistisch, was die Zukunft dieser Technologie angeht", sagt Narayanan. Schon heute kämen die Systeme nahe an Menschen heran, wenn es darum gehe, Emotionen zu erkennen: "Unsere Stimme transportiert sehr viele Informationen über unseren psychischen Status und unsere Identität."

Damit bekommt das sogenannte affective computing enormen Aufschwung, und gleichzeitig wird seine ausgesprochen unheimliche Dimension deutlich. Es geht dabei darum, dass Computer menschliche Gefühle lesen – über die Mimik, die Gestik, physiologische Daten, Hirn-Computer-Schnittstellen oder eben über die Stimme – und passend darauf mit den Menschen interagieren. Vor allem für die Mensch-Maschine-Interaktion sehen Experten große Vorteile, wenn Computer Gefühle gut entschlüsseln können. Das werde beispielsweise in der Pflege eine Rolle spielen, sagt Roddy Cowie, Psychologe an der Queen's University in Belfast: "Wenn sich ein Roboter um meine Mutter kümmert, will ich, dass er nett zu ihr ist und dass er merkt, wenn sie gestresst ist."

Die Stimme ist ehrlicher als Mimik

Bislang haben Forscher versucht, diese Informationen aus Gesichtsausdrücken zu lesen, weil Digitalaufnahmen von Gesichtern einfach zu bekommen sind. Besonders zuverlässig ist diese Methode allerdings nicht: Die Algorithmen fallen auf ein vorgetäuschtes Lächeln herein und können ein Lächeln aus Scham nicht von einem fröhlichen Lächeln unterscheiden. Der grundlegende Fehler, meint Cowie, seien fehlerhafte Emotionsmodelle. Er arbeitet seit mehr als 20 Jahren an computergestützten Auswerteverfahren. Neuerdings beobachtet er häufiger, dass sich Informatiker die gestiegene Rechenleistung und die modernen Methoden des maschinellen Lernens zunutze machen, um "auf eigene Faust" mit Modellen der Psychologie zu arbeiten – und dabei häufig danebengreifen. "Sie nutzen teilweise uralte Emotionsmodelle von Psychologen, die schon damals nicht richtig an sie geglaubt haben."

Digitale Assistenten: Die Stimme verrät es — "Unsere Stimme sagt viel über unsere Identität", weiß Shrikanth Narayanan von der University of Southern California

(Bild: University of Southern California)

Ein Beispiel dafür ist das Modell von Paul Ekman, das sieben Grundemotionen unterscheidet, die interkulturell vertreten sein sollen. Nach Erkenntnissen von Klaus Scherer, Psychologe am Neuroscience Center der Universität Genf, kommen sie jedoch praktisch nie in Reinform vor. "In unseren Stichproben sind 80 bis 90 Prozent aller Emotionen eine Mischung aus verschiedenen Grundemotionen", sagt der Wissenschaftler, der an seinem Fachbereich die Emotion Research Group leitet. Eine häufige Kombination seien beispielsweise Trauer und Wut. Um die entscheidenden Nuancen aufzuspüren, kombinieren Entwickler die Bildanalysen mit anderen Methoden, beispielsweise der Messung der Hautleitfähigkeit oder des Herzschlags, und mit Auswertungen der Gestik. Doch das erfordert eine komplexe Maschinerie, Nutzer müssen zusätzliche Messgeräte tragen – nicht besonders praktikabel im Alltag.

Stimmanalyse mit Computer seit den Siebzigern

Die Stimmdaten, die schon jetzt immer häufiger anfallen, versprechen da Abhilfe. "Mit der Stimme kann man viel schlechter lügen", sagt Scherer. Wir können sie viel weniger bewusst beeinflussen als die Mimik. Zudem ist "die Stimme komplex und bildet Mischungen besser ab als das Gesicht". Scherer beschäftigt sich seit Mitte der 1970er-Jahre damit, wie Therapeuten Informationen aus der Stimme nutzen können, um den Gefühlszustand ihrer Patienten besser zu verstehen. Bereits 1974 hat er ein Computerprogramm zur Stimmanalyse geschrieben, das die Daten auf bestimmte Faktoren wie Tonhöhe oder Energie untersucht. Mithilfe dieses Programms hat er ermittelt, wie sich die Stimme von Depressiven während der Therapie verändert. So konnte er erkennen, bei welchen Betroffenen die Therapie erfolgreich verläuft: "Sie sprachen mit tieferer Stimme, das Erregungsniveau war niedriger."

Zur offiziellen Diagnose von Depressionen wurden rechnerbasierte Klanganalysen bisher allerdings nicht eingesetzt. Die entsprechenden Faktoren maschinell auszuwerten oder auch nur eindeutig messbar zu machen, galt als zu schwierig. Mit einem großen Horizon-2020-Projekt will Scherer das ändern. Zusammen mit Informatikern, Psychologen und Ingenieuren will er Computer beispielsweise so programmieren, dass sie selbstständig Muster in Daten suchen. Auf diese Weise hoffen sie Faktoren zu finden, die Depressionen anzeigen. Aus vielen anderen Projekten mit maschinellem Lernen ist bekannt, dass die Algorithmen tatsächlich Hinweise finden können, die für Menschen nicht offensichtlich sind.

Beliebte Bestenlisten

Alle bestenlisten

Top 10: Das beste Smartphone bis 400 Euro im Test

Top 10: Das beste Heizkörperthermostat im Test

Top 10: Die beste Smartwatch mit EKG-Funktion im Test

Alle Angebote

Newsletter heise-Bot Push Push-Nachrichten

${intro} ${title}