Härtetest für Spracherkennung

Eine Sprachsoftware der chinesischen Suchmaschine Baidu erkennt Wörter auf Mandarin manchmal besser als ein Mensch – und hängt damit Google und Apple ab.

In Pocket speichern vorlesen Druckansicht
Lesezeit: 5 Min.
Von
  • Will Knight

In Sanlitun – einem lebhaften Pekinger Viertel voller Touristen, Karaoke-Bars und Luxusläden – sieht man reichlich Menschen mit den neuesten Smartphones in der Hand. Doch viele von ihnen fingern nicht mehr an den winzigen Tastaturen herum, sondern bedienen ihre Geräte mit etwas viel Effizienterem: mit ihrer Stimme.

Von perfekten Sprachschnittstellen träumen Technikentwickler und Science-Fiction-Autoren schon seit Jahrzehnten. Dank bemerkenswerter Fortschritte beim Maschinenlernen werden sie nun endlich alltagstauglich. Sie sind mittlerweile nicht mehr auf eine kleine Zahl festgelegter Befehle beschränkt und funktionieren auch in lauten Umgebungen. Sprachgesteuerte virtuelle Assistenten wie Siri von Apple, Cortana von Microsoft oder Google Now sind schon auf vielen Smartphones vorinstalliert. Auch der Amazon-Lautsprecher Echo lässt sich per Stimme bedienen.

Perfekt sind diese Systeme keineswegs. Manchmal missverstehen sie Befehle auf geradezu komische Weise. Doch sie werden immer besser und bieten einen Blick auf eine Zukunft, in der man nicht mehr für jedes Gerät ein neues Bedienkonzept lernen muss.

China bietet die besten Voraussetzungen für einen Siegeszug solcher Sprachschnittstellen. Mit 691 Millionen Nutzern sind Smartphones dort deutlich weiter verbreitet als herkömmliche Computer. Doch Tausende verschiedene Schriftzeichen machen die Texteingabe über Touchscreens frustrierend umständlich. Mit einem System namens Pinyin können die Zeichen zwar phonetisch aus lateinischen Buchstaben erstellt werden, doch viele ältere Menschen beherrschen dies nicht. Und ausgerechnet in den ärmeren Gegenden, wo Internetzugang besonders hilfreich wäre, können viele Menschen weder lesen noch schreiben.

"Das ist eine Herausforderung und eine Chance zugleich", sagt Andrew Ng, Stanford-Professor und Chefwissenschaftler der chinesischen Suchmaschine Baidu. "Es bedeutet, dass sich viele Leute nicht mehr vom Desktop-Computer auf Smartphones umstellen müssen, sondern gleich lernen können, wie man ein Mobilgerät am besten bedient."

Baidu hat besonders beeindruckende Fortschritte bei der Treffsicherheit der Spracherkennung gemacht. Gegründet wurde es im Jahr 2000 als chinesische Antwort auf Google. Heute dominiert Baidu mit 70 Prozent aller Anfragen den Suchmarkt des Landes. Darüber hinaus ist es in vielen weiteren Bereichen tätig, vom Film-Streaming bis zu Finanzdienstleistungen.

Das Unternehmen ist groß genug, um Sprachschnittstellen noch weiter voranzutreiben. Davon dürften auch Menschen in anderen Ländern profitieren. "Ich sehe Sprachtechnologie nahe an dem Punkt, ab dem sie so zuverlässig ist, dass man sie einfach nutzt, ohne weiter darüber nachzudenken", sagt Ng. "Die beste Technologie ist häufig unsichtbar, und wenn Spracherkennung zuverlässiger wird, hoffe ich, dass auch sie im Hintergrund verschwindet." Eine leistungsfähige Sprachtechnologie würde auch die Interaktion mit allen möglichen anderen Geräten erleichtern, glaubt Ng – etwa mit Robotern oder Hausgeräten. Jim Glass, ein führender Sprachforscher am Massachusetts Institute of Technology, sieht das auch so: "Wenn Menschen ein Gerät über Sprache statt über eine Fernbedienung steuern können, dann machen sie das auch."

Baidu-Forschungsteams in Peking und im Silicon Valley arbeiten intensiv an weiteren Verbesserungen. Im vergangenen November hat das kalifornische Labor dabei einen wichtigen Meilenstein erreicht: ein neues Spracherkennungssystem namens Deep Speech 2. Es basiert auf einem tiefen neuronalen Netz und lernt anhand von Millionen transkribierter Sprachbeispiele, wie bestimmte Audiosignale mit den entsprechenden Wörtern zusammenhängen.

Nun erkennt Deep Speech 2 gesprochene Wörter in Mandarin manchmal sogar genauer als ein Mensch. Das ist umso bemerkenswerter, als Mandarin phonetisch komplex ist – unterschiedliche Tonhöhen können unterschiedliche Bedeutungen codieren. Noch beeindruckender erscheint diese Leistung, wenn man weiß, dass nur wenige der kalifornischen Entwickler überhaupt Chinesisch sprechen. Damit ist Deep Speech 2 im Prinzip ein universelles Sprachsystem, das ebenso gut Englisch lernt, wenn man ihm genügend Beispiele vorsetzt.

Die meisten Sprachanfragen an Baidus Suchmaschine sind einfach und beziehen sich auf das Wetter oder die Luftverschmutzung. Dabei ist das System meist beeindruckend treffsicher. Zunehmend stellen die Nutzer aber auch kompliziertere Fragen. Um damit zurechtzukommen, hat Baidu im vergangenen Jahr seinen eigenen Sprachassistenten namens Duer herausgebracht und in seine wichtigste App integriert. Er kann Nutzern zum Beispiel die Anfangszeiten von Kinofilmen sagen oder einen Tisch im Restaurant reservieren.

Die große Herausforderung liegt für Baidu darin, seinen KI-Systemen beizubringen, kompliziertere Sätze zu verstehen und intelligent darauf zu antworten. Irgendwann soll Duer in der Lage sein, ein sinnvolles Gespräch zu führen und auf neue Informationen darin zu reagieren. Dazu will eine Forschungsgruppe in Peking neuronale Netze wie bei Deep Speech 2 nutzen. Darüber hinaus wird sie sich aber noch weitere Tricks ausdenken müssen. Zusätzlich hat Baidu ein Team eingestellt, das die Anfragen bei Duer analysiert und Fehler korrigiert, sodass das System dazulernt und allmählich besser wird.

"Ich würde mir sehr wünschen, dass wir in Zukunft mit allen unseren Geräten sprechen können", sagt Ng. "Ich hoffe, meine Enkelkinder werden eines Tages kaum glauben können, dass man im Jahr 2016 ,Hallo' zu seiner Mikrowelle sagte und sie einen dann einfach ignorierte." (bsc)