Verstehen statt Vertexten

Um die Ausbildung in Call-Centern zu verbessern, kombinieren Forscher Spracherkennung mit Semantik. Das könnte auch Hotline-Computern helfen.

vorlesen Druckansicht
Lesezeit: 5 Min.

Wie beliebt Computer als Gesprächspartner an einer Hotline sind, zeigt Google: Satte 338.000 Treffer listet die Suchmaschine auf, wenn man dort die Begriffe "ivr" ("interactive voice response", zu deutsch Sprachdialogsystem) und "cheat sheet" ("Mogelzettel") eingibt. Die Fundstellen verraten, wie man am Computer vorbei einen echten Menschen an die Strippe bekommt. Doch auch Call-Center-Agenten aus Fleisch und Blut sind nicht unbedingt beliebt.

Ein Forschungsprojekt von mehreren deutschen Unternehmen soll jetzt für Abhilfe sorgen: Es ist darauf angelegt, die Leistung der Profi-Telefonierer zu verbessern – und könnte als Nebeneffekt die Grundlage für bessere IVRs schaffen. Unmittelbares Ziel des Projektes ist es, den Inhalt von Call-Center-Gesprächen zwecks besserer Schulung der Agenten automatisch auszuwerten. Die erste Herausforderung dabei besteht darin, gesprochene Sprache in Text zu verwandeln: Handelsübliche Diktatsoftware schafft das nach einem Training auf einen bestimmten Sprecher und mit hochwertigen Mikrofonen recht zuverlässig, doch beim Call-Center wechseln die Anrufer ständig, und das Telefonnetz überträgt nur einen schmalen 8-Kilohertz-Ausschnitt jedes Stimm-Frequenzbandes.

Für die Lösung dieser Probleme ist im Rahmen des Projekts Siegfried Kunzmann vom European Media Lab in Heidelberg zuständig. Als Grundlage verwendet er die Diktatsoftware "Via Voice" seines früheren Arbeitgebers IBM, die er für diesen speziellen Einsatz weiterentwickelt hat. So wird die Software nun nicht mehr "überwacht" trainiert, indem der Benutzer ihr bekannte Textpassagen vorliest, sondern "unüberwacht".

Dabei wählt sie solche Textpassagen aus, die sie mit hoher Wahrscheinlichkeit richtig erkannt hat, und erlernt mit ihnen in einer zweiten Schleife den Wortschatz, die Formulierungen und die Dialekte der Sprecher. Zum Glück für Kunzmann ist es im Rahmen des Projekts nicht nötig, den gesamten Dialog wortgetreu zu vertexten: Für die angestrebte Qualitätskontrolle reicht es aus herauszufinden, ob beispielsweise bestimmte Gruß- und Verabschiedungsformeln benutzt wurden und ob gewisse Schlüsselwörter gefallen sind.

Zur Auswertung werden die Gesprächsprotokolle an Software des Saarbrücker Unternehmens Xtramind weitergereicht. Die Ausgründung aus dem Deutschen Forschungszentrum für Künstliche Intelligenz ist darauf spezialisiert, E-Mails automatisch zu klassifizieren und so das Mail-Management zu erleichtern. "Für uns macht es kaum einen Unterschied, ob der Input von einer Mail oder einer Transkription stammt – unsere Technik ist bei Fehlern sehr robust", sagt Thomas Straub, Entwicklungsleiter bei Xtramind.

Die Gespräche werden in zwei Stufen verarbeitet. Im ersten Schritt muss ein Mensch zunächst Kategorien wie "Beschwerde" oder "Nachfrage" definieren und die Software mit jeweils 10 bis 20 typischen Beispielen dafür füttern. Der Computer zerhackt nun den Text in kleine Schnipsel von drei bis vier Zeichen. Mit einem mehrdimensionalen Verfahren werden diese Wort- und Satzteile statistisch sortiert. Heraus kommt ein Fingerabdruck für jede Kategorie, mit dem die Software die Ähnlichkeit eines unbekannten Dokumentes mit einer bestimmten Kategorie berechnen kann.

Im zweiten Schritt werden die Inhalte der Gespräche nach linguistischen Regeln extrahiert: Verben werden auf ihren Wortstamm reduziert, Substantive in den Singular überführt, Sätze in Subjekt, Prädikat und Objekt zerlegt. Solches "Parsen" wird beim sogenannten "Text Mining" oder "Information Retrieval" schon länger benutzt, um große Textmengen zu organisieren. Für die gesprochenen Texte müssen die Xtramind- Forscher aber noch einmal an den Algorithmen feilen: "Gesprochene Sprache ist anders aufgebaut als geschriebene.

Zudem entstehen bei der Transkription Fehler", erklärt Straub. Zunächst soll sich das System nur über aufgezeichnete Call- Center-Gespräche hermachen – die Verarbeitungsgeschwindigkeit spielt also noch keine Rolle. Doch prinzipiell seien sowohl Erkennung als auch Verarbeitung echtzeitfähig, versichern Straub und Kunzmann. Damit wäre der Weg offen für Anwendungen bei Telefondialogsystemen.

Diese arbeiten, anders als Diktiersoftware, typischerweise mit einem begrenzten Satz an Eingaben, die erkannt werden können – je umfangreicher diese "Grammatik", desto ungenauer ist die Erkennung. Wenn sich Mensch und Maschine am Telefon nicht verstehen, kann das also zwei Gründe haben: Ein Wort, das in der Grammatik steht, wurde nicht richtig erkannt. Oder, was sehr viel häufiger vorkommt: Der Anrufer benutzt eine Formulierung, die die Dialog-Designer nicht vorhergesehen haben und die deshalb auch nicht in der Grammatik vorkommt.

Gerade das zweite Problem lässt sich mit besserer Spracherkennung nur begrenzt lösen, denn letztlich geht es bei Dialogsystemen nicht darum, was ein Anrufer genau gesagt hat, sondern darum, was er will – etwa einen Flug buchen oder eine Fahrplanauskunft einholen. Die Kombination von relativ großzügiger, aber breiter Erkennung mit fehlertoleranter semantischer Nachbearbeitung könnte genau das leisten. "Durch dieses Bindeglied können wir komplett neue Anwendungen angehen", sagt Media-Lab-Forscher Kunzmann. (bsc)