Spracherkennung mit Gefühl

Ist der Computernutzer glücklich oder vielleicht traurig? Das israelische Start-up Beyond Verbal hat eine Technik entwickelt, die das nur anhand der Stimme einer Person herausfinden können soll.

In Pocket speichern vorlesen Druckansicht
Lesezeit: 3 Min.
Von
  • Rachel Metz

Ist der Computernutzer glücklich oder vielleicht traurig? Das israelische Start-up Beyond Verbal hat eine Technik entwickelt, die das nur anhand der Stimme einer Person herausfinden können soll.

Yuval Mor, Chef der jungen Firma Beyond Verbal aus Tel Aviv, kann sich eine Welt vorstellen, in der eine Stereoanlage die Gefühlslage ihres Besitzers erfassen kann, um dann passende Musik abzuspielen – identifiziert allein durch den Klang seiner Stimme.

An einer solchen Technik forscht das Start-up schon seit längerem: Die Beyond-Verbal-Software analysiert den Tonfall der Sprache, um daraus zu ermitteln, wie sich die Sprecherin oder der Sprecher fühlt.

Technisch gilt das als enorme Herausforderung, die spannende Anwendungsmöglichkeiten hätte. Das reicht vom Fahrassistenzsystem im Auto, das Stress erkennen kann, bis hin zu Rechnerbetriebssystemen, die Benutzerschnittstellen vereinfachen, wenn sie feststellen, dass der User frustriert ist. Auch in Call Centern soll die Beyond-Verbal-Technik bereits getestet werden, sagt Mor.

Laut dem Firmenchef kann die Software bestimmte Merkmale menschlicher Intonationen erfassen, die bislang von Computern nicht aufspürbar waren. Diese Signale können Informationen über Stimmung, persönliche Einstellung zum Gesprächspartner oder sogar zur Persönlichkeit verraten. Das menschliche Gehirn hat mit solchen Merkmalen keine Probleme – selbst Babys, die noch nicht sprechen können, erkennen sie.

Beyond Verbal ist nicht die einzige Firma, die an neuartiger Erkennungstechnik für die menschliche Gefühlslage forscht. In diesem Wissenschaftsbereich, den man auch "Affective Computing" nennt, arbeitet etwa das Start-up Affectiva daran, Gesichtsausdrücke zu analysieren, um daraus zu schließen, ob Testpersonen eine Werbeanzeige gefällt. Simple Emotion arbeitet wiederum ähnlich wie Beyond Verbal an Spracherkennungsverfahren. Diese sollen autistischen Menschen helfen, besser zu verstehen, wie sich Gesprächspartner fühlen.

Bei dem Beyond-Verbal-Verfahren wird eine Analyse der Sprachmodulation vorgenommen. Der Algorithmus der Firma sucht nach bestimmten Mustern, die auf Emotionen schließen lassen. Zehn bis fünfzehn Sekunden lange Sprachschnipsel sollen dabei ausreichen. In einer Videodemonstration zeigt die Firma, wie sie einen Auftritt des US-Präsidenten Obama bei einer Debatte im Jahr 2012 zerlegt hat. Darin zeigt er sich laut Beyond Verbal an bestimmten Stellen "sachorientiert", "wütend", "zynisch" und "extrovertiert egozentrisch". Mit der heute verfügbaren Software soll eine Genauigkeit von bis zu 80 Prozent erreicht werden. Es sei möglich, dies durch Kombination mit anderen Technologien noch zu verbessern, etwa Systemen zur Erkennung von Wortbedeutung und Kontext.

James Lester, Professor an der North Carolina State University, der im Bereich Affective Computing forscht, meint, es sei nicht weit hergeholt, dass es der Beyond-Verbal-Software gelingt, Emotionen zu definieren. Schwer werde es jedoch, sie mit Begriffen zu bewerten, die mehr als nur "positiv" oder "negativ" lauten. "Wenn man beispielsweise ein System mit acht bis zwölf oder noch mehr emotionalen Kategorien aufstellt, ist das deutlich komplexer. Der Schwierigkeitsgrad, diese korrekt zu klassifizieren, steigt nicht linear an, sondern steil."

Clifford Nass von der Stanford University sieht das ähnlich. Der Professor im Bereich "Human Computer Interaction" meint, dass es zwar möglich sei, einer Maschine beizubringen, bestimmte Emotionen in der menschlichen Stimme zu erkennen, doch kein System sei darin so gut wie das menschliche Gehirn. Es sei zudem schwierig, die Unterschiede auszugleichen, die es von Sprache zu Sprache gibt. Beyond Verbal räumt allerdings ein, dass seine Software beispielsweise für Tonsprachen wie Chinesisch zunächst "kalibriert" werden muss. (bsc)