Affective Computing: Wie KI Emotionen erkennen soll

Forscher arbeiten an Systemen, die Stimmen und Mimik analysieren, um besser mit Menschen zusammenzuarbeiten. Emotionen zu erkennen, ist jedoch kompliziert.

Artikel verschenken
In Pocket speichern vorlesen Druckansicht
, KI Midjourney  Bearbeitung c’t

(Bild: KI Midjourney | Bearbeitung c’t)

Lesezeit: 13 Min.
Von
  • Thomas Brandstetter
Inhaltsverzeichnis

Für eine künstliche Intelligenz auf der Suche nach Mustern sind wir Menschen ein gefundenes Fressen. In unserem Gesicht arbeiten über 20 Muskeln daran, unsere Gefühlswelt in Form von Mimik zu kommunizieren. Und auch unsere Stimme erzeugt zusätzlich zu den gesprochenen Worten eine schier unüberschaubare Vielfalt an Klangvariationen, die mit unserer Stimmung verknüpft sind. Über Kamera und Mikrofon ist eine künstliche Intelligenz in der Lage, Hinweise auf unseren Gemütszustand zu gewinnen.

Das Schlagwort "Affective Computing" fasst Technik zusammen, die menschliche Affekte und Emotionen zu erkennen versucht. Die Forschung dazu kombiniert Psychologie, Informatik und Physiologie, unter anderem biochemische Vorgänge im Körper. In der Marktforschung wird die Technik bereits eingesetzt. "Oft kommen Unternehmen auf uns zu, die wissen wollen, welches Produkt bei ihren Kunden am besten ankommt", sagt Nina Holzer, die am Fraunhofer-Institut für Integrierte Schaltungen IIS in Erlangen die Forschungsgruppe für Multimodal Human Sensing leitet. Gemeinsam mit ihren Kollegen versucht sie, mithilfe von KI-Methoden und unterschiedlichen Sensoren die körperlichen und physiologischen Reaktionen von Menschen zu erfassen und zu interpretieren und so auf deren emotionale Zustände zu schließen. "Wir können zum Beispiel konkret Emotionen wie Freude oder Ärger schätzen, aber auch komplexere emotionale Zustände wie kognitive Überforderung", sagt Holzer.

Mehr zum Thema Künstliche Intelligenz (KI)

Um Emotionen aus dem Klang der Stimme abzuleiten, kommen ähnliche Algorithmen zum Einsatz wie bei der Spracherkennung. Da sich die relevanten Merkmale im Vergleich zu den elementaren Bausteinen der Sprache während des Sprechens nur langsam verändern, reicht ihnen aber eine geringere Abtastrate von etwa ein bis zwei Werten in der Sekunde, um etwa eine freudige Aufregung von einer ruhigen Trauer zu unterscheiden. Nur aus dem Klang der Stimme Freude von Ärger zu unterscheiden ist dagegen schwierig, da beide mit einem hohen Maß an Aufregung einhergehen. In solchen Fällen können ergänzende Informationen aus der Mimik helfen. Im einfachsten Fall deuten nach oben gerichtete Mundwinkel auf Freude hin, während das Gegenteil Ärger bedeutet. Der Grad der Erregtheit lässt sich dagegen aus Videomaterial allein nur schwer ableiten.