"Verstehen, was der Nutzer meint"

Reimund Schmald vom Spracherkennungsspezialisten Nuance spricht im TR-Interview über Mobiltelefone, die ihren Besitzer an der Stimme identifizieren können.

11.05.2012, 07:30 Uhr

Lesezeit: 6 Min.

MIT Technology Review

Von

Ben Schwan

Reimund Schmald vom Spracherkennungsspezialisten Nuance spricht im TR-Interview über Mobiltelefone, die ihren Besitzer an der Stimme identifizieren können.

Schmald ist bei Nuance als Marketingmanager für den Mobilbereich zuständig und arbeitet selbst seit 17 Jahren in der Spracherkennungsbranche. Die Nuance-Technik steckt in zahlreichen Smartphones, Navigationsgeräten und anderen Hardware-Komponenten.

Technology Review: Herr Schmald, Spracherkennungssysteme erleben derzeit einen gewaltigen Boom, gespeist vor allem durch mobile Anwendungen. Auch Normalverbraucher kennen die Technik mittlerweile, weil sie immer besser wird. Ab welchem Punkt hat wurde es den Verantwortlichen bei Nuance klar, dass das ein Massenmarkt werden könnte?

Reimund Schmald: Spracherkennung ist ja kein neues Phänomen, wenngleich sie in den 60er Jahren des vergangenen Jahrhunderts noch nicht so ausgereift war, wie das heute der Fall ist. Im Navigationssystem kommt unsere Spracherkennung zum Beispiel seit 2004 zum Einsatz. Und Autos gibt es viele – mehr als 70 Millionen davon enthalten inzwischen Nuance-Technologie.

Mit unseren Produkten sind wir breit aufgestellt und adressieren Funktionalität und Bedienbarkeit, wo Übersicht gewollt oder gewünscht ist. In einer immer komplexeren vernetzten Welt steigt die Nachfrage danach, weshalb wir schon immer von dem Marktpotential überzeugt waren. Unsere Spracherkennung findet sich dabei nicht nur in mobilen Anwendungen, sondern beispielsweise mit der Software "Dragon NaturallySpeaking" auch auf dem Desktop-Rechner. Neben dem Auto, Smartphones und PCs bringen wir die Sprache jetzt auch in den Fernseher. Der Durchbruch beim Endkunden kam sicherlich besonders seit Apples iPhone 4S mit dem Sprachassistenten "Siri".

TR: Heutige Spracherkennungssysteme nutzen zumeist einen Cloud-basierten Ansatz, bei dem die eigentliche Erkennung auf einem entfernten Server stattfindet. Welchen Vorteil hat das? Könnten moderne Smartphones mit ihren Mehrkernprozessoren den Job nicht ebenfalls erledigen?

Schmald: In der Cloud bringen alle Anwender Verbesserungen ein und erweitern den Wortschatz, wovon dann wiederum alle profitieren. Bei einer lokalen Verarbeitung kann sich das System zwar stärker auf den Nutzer einstellen, allerdings werden keine Erweiterungen von den anderen Anwendern eingespeist. Auch kann der Nutzer dem Programm Wörter beibringen, und dieses wird für die künftige Verwendung entsprechend gespeichert, was in der Cloud so nicht möglich ist. Und natürlich kann die eigene Aussprache mit der Zeit besser verstanden werden.

Beide Verfahren haben somit Vor- und Nachteile. Momentan ist die Rechenleistung der Smartphones noch zu gering, aber wir werden dahin kommen, dass die Spracherkennung auf dem Gerät selbst stattfindet.

TR: Wenn Spracheingaben ins Internet übertragen werden, hat dies auch Auswirkungen auf die Privatsphäre. Wie garantieren Sie, dass damit kein Schindluder getrieben wird?

Schmald: Wir erfüllen zunächst einmal alle gesetzlichen Datenschutzbestimmungen. Wir wissen, dass das Thema gerade in Deutschland sensibel diskutiert wird und achten daher penibel darauf, diesen Anforderungen auch zu entsprechen.

TR: Computersysteme kommen mittlerweile mit zahlreichen verschiedenen Stimmen, aus denen man frei wählen kann. Diese basieren auf einem menschlichen Sprecher. Wie hat man sich den Einsprechprozess vorzustellen?

Schmald: Sprachsynthese ist die Erzeugung von gesprochener Sprache durch einen Computer – und deren Ziel ist es, der menschlichen Stimme möglichst nahe zu kommen. Sprachsynthese, auch Text-to-Speech-System (TTS), wandelt einen Text in ein Sprachsignal um. Wir haben Stimmen in mehr als 60 Sprachen im Sortiment, wir suchen dazu dann geeignete Sprecher und nehmen ihre Stimmen mehrere Stunden im Studio auf. Die Sprecher müssen dabei viele unterschiedliche Sorten Text vorlesen. Danach werden die Aufnahmen "in Stücke" gehackt und so ist es möglich, alle erdenklichen Textvorlagen vorlesen zu lassen.

TR: Wenn man eine Nuance-Stimme wie die des Sprachassistenten Siri von Apple hört, klingt das bereits sehr realitätsnah, doch es kommt bei bestimmten Worten und Lauten noch immer zu einem abgehackten Klang. Warum ist das so? Wird sich dies in einigen Jahren ändern?

Schmald: Unsere Stimmen haben in den letzten Jahren viel an Menschlichkeit und Natürlichkeit dazugewonnen. Mittlerweile können auch beispielsweise englische Wörter oder Namen vom System erkannt werden und dann stets "richtig" ausgesprochen werden. Auch Symbole wie ein Smiley oder Jargonbegriffe wie "LOL" können vorgelesen werde. Echte Gefühle können Computerstimmen allerdings noch nicht ausdrücken.

TR: Vieles von dem, was heute geht, klang noch vor wenigen Jahren wie Science Fiction. Welche Hürden werden in Spracherkennung und -synthese in den nächsten Jahren noch zu nehmen sein?

Schmald: Die Spracherkennung selbst ist mittlerweile sehr gut. Wir stoßen mit ihr allerdings gegenwärtig in Lebensbereiche vor, in denen das Herausfiltern von Zwischengeräuschen oder die Identifizierung des Sprechers entscheidend wird. Der Fernseher im Wohnzimmer ist hierfür ein gutes Beispiel. Zudem verbessern wir das natürliche Sprachverständnis, das sogenannte Natural Language Understanding, so dass der Sinn des Gemeinten aus dem Gesagten noch besser erschlossen werden kann. Die User möchten Anwendungen zunehmend intuitiv benutzen – und zwar wie in einem Gespräch mit einer anderen Person. Dabei will sich niemand mehr bestimmte Kommandos merken oder sich an einen vorgegebenen Dialogverlauf halten müssen.

Benutzer wünschen sich außerdem, dass die Sprachbedienung verschiedener Geräte oder verschiedener Marken für sie einheitlich ist. Beispielsweise sollte die Auswahl eines Musikstückes ähnlich sein, unabhängig davon, ob er (oder sie) sein MP3-Spieler, sein Mobiltelefon, eine Set-top Box oder die Musikanlage im Auto bedient.

Gleichzeitig haben verschiedene Anwender unterschiedliche Anforderungen: Ein Anfänger benutzt Sprachbedienung anders als jemand, der ein System schon seit längerer Zeit benutzt. Einige Anwender mögen es kurz und knapp, andere lieber ausführlich. Idealerweise kann der Benutzer sich dann ein eigenes Profil wählen, das sich sogar über die Zeit anpasst. (bsc)