Digitale Assistenten: Die Stimme verrät es

Seite 2: Daten sind zu privat

Der Nachteil dieser Methode ist allerdings, dass riesige Mengen an Trainingsdaten notwendig sind. Emotionsdaten sind jedoch generell schwierig zu bekommen. "Sie sind zu privat", so Scherer. Hinzu kommt, dass Gefühle zwar allgegenwärtig, die vielen Mixturen für sich aber eher selten sind. Das verringert die Datenmenge noch einmal. Und je kleiner sie wird, desto eingeschränkter ist die Aussagekraft der Gefühlserkennung. Denn gute Vorhersagen produziert der Computer nur, wenn er innerhalb der Daten bleibt, mit denen er trainiert wurde. "Sobald sie eine etwas andere Stichprobe haben, funktioniert ihr Algorithmus häufig nicht mehr", sagt Scherer.

Analysesysteme stark spezialisert

Bisherige Analysesysteme sind daher stark spezialisiert. Sie sind vor allem sehr gut in dem Themengebiet, auf das die Algorithmen trainiert wurden – beispielsweise ein Arzt-Patienten-Gespräch oder ein Callcenter-Anruf. Um die Datenlage zu verbessern, arbeitet Scherer mit seinen Kollegen unter anderem mit Stimmen von Schauspielern – auch wenn diese "nur so tun als ob", gehören sie offenbar zu den wenigen Menschen, die "mit der Stimme lügen" können, das gehört zu ihrem Beruf.

Auf diese Weise hofft er, auch ein zweites Grundproblem des maschinellen Lernens zu lösen: Bisher sind die Schlüsse, die ein Computer aus Daten zieht, für Menschen oft nicht nachvollziehbar. In den gigantischen Datenmengen geht der kausale Zusammenhang verloren. Und das stört Scherer: "Ich möchte doch verstehen, was vor sich geht. Ich will wissen: Wie beeinflusst Emotion die Stimme."

Die Frage ist nur: Wie echt ist Schauspielerei? Björn Schuller, Gründer des Emotionserkennungs-Start-ups Audeering, fragt daher lieber die Menschen direkt. Sie sollen der Maschine Auskunft darüber geben, welche Emotion ihrer Meinung nach in einer Stimmprobe steckt. Aus diesen Informationen lernt das Gerät dann, die Stimmdaten in Zukunft selbst zuzuordnen.

Analyse von Stimmdaten interessiert die Marktforschung

Schuller wagt noch einen zweiten, ungewöhnlichen Weg: Seine Systeme lernen anhand von Geräuschen aus der Natur, die positiv oder negativ empfunden werden, beispielsweise Vogelgezwitscher oder Verkehrslärm. Das funktioniere tatsächlich: "Wir imitieren mit der Stimme offenbar Dinge, die wir in der Natur wahrnehmen." So erziele er allein mit dieser Mischung aus Geräuscherkennung und Sprachdaten relativ schnell hohe Erkennungsraten von um die 70 Prozent. Schuller hat etwa eine App entwickelt, mittels derer die Emotionen von autistischen Kindern erkannt werden können. Pro Datensatz braucht er bis zu 60 übereinstimmende Angaben von Eltern oder Betreuern, etwa darüber, dass dieses Kind hier glücklich klingt.

Geld verdient Audeering allerdings unter anderem mit Marktforschung. Seine Kunden wollen nicht nur über den Inhalt des Gesagten, sondern auch über den Klang der Worte Auskunft darüber erhalten, wie die Befragten ein Produkt bewerten. Ein riesiger Markt sei auch die Analyse von Stimmdaten aus dem Internet, beispielsweise von YouTube, sagt Schuller: "Da können Sie Meinungsbildung im Netz in Echtzeit verfolgen." Schuller nutzt ein Emotionsmodell, das verwandt ist mit der sogenannten Appraisal-Theorie: Ob ein bestimmtes Ereignis bei einem Menschen eine Emotion hervorruft – und wenn ja, welche und mit welcher Intensität –, hängt demnach vor allem davon ab, wie er das Geschehene interpretiert. Wenn eine Person etwa eine Niederlage erlebt, ist es für ihre emotionale Reaktion darauf entscheidend, ob sie den Eindruck hat, mit der Niederlage klarzukommen, oder ob der Vorfall sie aus der Bahn zu werfen droht. Appraisal-Theorien sind heute einer der dominierenden Ansätze, um die Entstehung und Differenzierung von Emotionen zu erklären.

Positive und negative Erregung noch schwierig

Welche Rolle diese Zusammenhänge spielen, zeigt sich Schuller zufolge an der Valenz. Zusammen mit Erregung und Dominanz bildet sie einen der drei Faktoren, die sich als zielführend für die Stimmanalyse erwiesen hätten. So könne eine hohe Erregung beispielsweise sowohl Freude als auch Ärger bedeuten – "und in der Tat wird das häufig verwechselt, wenn man eine Fremdsprache hört". Kombiniert man diesen Faktor aber mit der Valenz (ist die Stimmung eher positiv oder negativ), lassen sich die beiden auseinanderhalten. Mittels Dominanz – sie äußert sich etwa durch die Lautstärke – könne man wiederum zwischen Ärger (dominant) und Furcht unterscheiden.

Der Haken ist allerdings: Um die Valenz zu beurteilen, ist Kontextwissen nötig. Und das haben Maschinen in den seltensten Fällen. Während sie beim Faktor Erregung schon ebenso gut sind wie Menschen, fallen sie bei Valenz zurück, gibt Schuller zu. Eine weitere Herausforderung sei, die Gefühle von Menschen unabhängig von deren Zustand richtig einzuordnen. Wer betrunken ist oder einen Schlaganfall hatte, redet vielleicht schleppender – ohne deshalb automatisch deprimiert zu sein. Auch USC-Forscher Shrikanth Narayanan betont: "Emotion allein aus der Stimme zu erkennen, ist noch mit einem Rauschen behaftet."

Die besten Ergebnisse erzielen Verfahren, die verschiedene Ansätze miteinander verknüpfen, etwa die Untersuchung von Mimik und Stimme mit der Auswertung physiologischer Daten. Weil derart umfassende Informationen in der Praxis jedoch selten vorliegen, bringt Schuller seinen Systemen bei, selbst einzuschätzen, wie sicher sie sich in der Einordnung einer Quelle sind. Bei Bedarf sollen sie dann menschliche Hilfe anfordern.

KI wird die Emotionen immer besser verstehen

Klaus Scherer sieht darin jedoch nur eine Übergangsphase. "Künstliche Intelligenz wird Emotionen dank der Stimme in Zukunft mit Sicherheit gut erkennen können", ist er überzeugt. "Und ich kann mir vorstellen, dass viele Leute das als Vorteil empfinden." Doch er sieht auch die Gefahr, "dass ohne unser Wissen Informationen über unsere emotionalen Reaktionen gespeichert werden." Alexa speichere schließlich schon jetzt alle Daten auf amerikanischen Servern. Und sobald die Daten nicht mehr anonym vorliegen, sondern individualisiert, könnten sie leicht missbraucht werden.

Audeering-Gründer Schuller ist sich dessen bewusst: "Aus unserer Stimme kann man reichhaltige Informationen bekommen – vom Alter über die Gesundheit bis zur Emotion." Das erlaube neue, fragwürdige Marketingstrategien. Totalitäre Systeme hätten eine wunderbare Quelle, um ihre Überwachung zu perfektionieren. Oder man denke an Bewerber in einem Vorstellungsgespräch. Unsicherheiten würden sofort erkannt – für die Maschinen wären sie quasi nackt. Dystopisch? Angesichts des jüngsten Skandals um die unerlaubte Weitergabe persönlicher Daten von Millionen Facebook-Nutzern steht Psychologe Scherer Assistenzsystemen mit automatischer Stimmerkennung extrem misstrauisch gegenüber. "Im Augenblick schätze ich die Gefahren höher ein als den Nutzen dieser Technologie."

(bsc)

nach oben

Alle Angebote

Newsletter heise-Bot Push Push-Nachrichten

${intro} ${title}