Affective Computing: Wie KI Emotionen erkennen soll

Forscher arbeiten an Systemen, die Stimmen und Mimik analysieren, um besser mit Menschen zusammenzuarbeiten. Emotionen zu erkennen, ist jedoch kompliziert.

Artikel verschenken

(Bild: KI Midjourney | Bearbeitung c’t)

30.11.2023, 13:30 Uhr

Lesezeit: 13 Min.

c't Magazin

Von

Thomas Brandstetter

Affective Computing: Wie KI Emotionen erkennen soll
- Verkabelte Konsumenten
Einfühlsame Autos
Komplexe Gefühlswelt
Aussagekräftige Spektrogramme
Fazit

Artikel in c't 29/2023 lesen

Für eine künstliche Intelligenz auf der Suche nach Mustern sind wir Menschen ein gefundenes Fressen. In unserem Gesicht arbeiten über 20 Muskeln daran, unsere Gefühlswelt in Form von Mimik zu kommunizieren. Und auch unsere Stimme erzeugt zusätzlich zu den gesprochenen Worten eine schier unüberschaubare Vielfalt an Klangvariationen, die mit unserer Stimmung verknüpft sind. Über Kamera und Mikrofon ist eine künstliche Intelligenz in der Lage, Hinweise auf unseren Gemütszustand zu gewinnen.

Das Schlagwort "Affective Computing" fasst Technik zusammen, die menschliche Affekte und Emotionen zu erkennen versucht. Die Forschung dazu kombiniert Psychologie, Informatik und Physiologie, unter anderem biochemische Vorgänge im Körper. In der Marktforschung wird die Technik bereits eingesetzt. "Oft kommen Unternehmen auf uns zu, die wissen wollen, welches Produkt bei ihren Kunden am besten ankommt", sagt Nina Holzer, die am Fraunhofer-Institut für Integrierte Schaltungen IIS in Erlangen die Forschungsgruppe für Multimodal Human Sensing leitet. Gemeinsam mit ihren Kollegen versucht sie, mithilfe von KI-Methoden und unterschiedlichen Sensoren die körperlichen und physiologischen Reaktionen von Menschen zu erfassen und zu interpretieren und so auf deren emotionale Zustände zu schließen. "Wir können zum Beispiel konkret Emotionen wie Freude oder Ärger schätzen, aber auch komplexere emotionale Zustände wie kognitive Überforderung", sagt Holzer.

Um Emotionen aus dem Klang der Stimme abzuleiten, kommen ähnliche Algorithmen zum Einsatz wie bei der Spracherkennung. Da sich die relevanten Merkmale im Vergleich zu den elementaren Bausteinen der Sprache während des Sprechens nur langsam verändern, reicht ihnen aber eine geringere Abtastrate von etwa ein bis zwei Werten in der Sekunde, um etwa eine freudige Aufregung von einer ruhigen Trauer zu unterscheiden. Nur aus dem Klang der Stimme Freude von Ärger zu unterscheiden ist dagegen schwierig, da beide mit einem hohen Maß an Aufregung einhergehen. In solchen Fällen können ergänzende Informationen aus der Mimik helfen. Im einfachsten Fall deuten nach oben gerichtete Mundwinkel auf Freude hin, während das Gegenteil Ärger bedeutet. Der Grad der Erregtheit lässt sich dagegen aus Videomaterial allein nur schwer ableiten.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Smart Home: Alles, was Einsteiger über Home Assistant wissen müssen

Home Assistant ist ein mächtiges Werkzeug, um das smarte Zuhause zu steuern. Wir erklären in diesem umfangreichen Kompendium die Basisfunktionen.

Android für Audi: Nachrüstbox für Android Auto und Apple CarPlay im Test

Nachrüstboxen machen Apple CarPlay und Android Audio auch in älteren Fahrzeugen möglich. Wir testen eine solche Box und erklären, wie der Einbau gelingt.

Abofalle Auto: Folgekosten durch digitale Services – mehr Transparenz gefordert

Vernetzte Services sorgen für mehr Komfort und Sicherheit beim Neuwagen. Doch nach ein paar Jahren wird es oft unübersichtlich. So auch beim Mégane E-Tech.

Audi Q5 e-hybrid: Plug-in-Hybrid mit starker Konkurrenz im Test

Der dritte Q5 bietet auch in Kombination mit dem Plug-in-Hybrid für sich betrachtet ein feines Fahrerlebnis. Doch der Druck durch Elektroautos wächst.

KI-Grafik: Real gewordener OpenClaw-Bot arbeitet mit Schraubenschlüssel in der Hand am System.

OpenClaw im Selbstversuch: Erste Schritte mit dem Super-KI-Agenten

OpenClaw macht aus LLMs eigenständige Helfer: Sie senden Mails, schreiben Skripte und erledigen komplexe Aufgaben. Wir haben das in sicherer Umgebung probiert.