Suche gehorcht aufs Wort

Google hat seine Spracherkennungstechnik personalisiert, um Wörter unterschiedlicher Sprecher besser verstehen zu können.

In Pocket speichern vorlesen Druckansicht
Lesezeit: 4 Min.
Von
  • Paul Boutin

Google hat seine Spracherkennungstechnik personalisiert, um Wörter unterschiedlicher Sprecher besser verstehen zu können.

Smartphones sind für viele Aufgaben hervorragend geeignet. Mit einer großen Ausnahme: Das Tippen auf Touchscreen oder Minitastatur bleibt im Vergleich zur Computernutzung leidlich unbequem. Das dürfte einer der Gründe sein, warum laut Aussagen von Google eine von vier mobilen Suchanfragen in den USA mittlerweile per Sprache erfolgt. Der Trend dürfte sich fortsetzen: Kürzlich hat der Internet-Riese einen neuen personalisierten "Voice Search"-Dienst eingeführt, der deutlich genauer arbeitet als zuvor.

Das verbesserte Angebot, momentan nur in englischer Sprache und für Android-Handys erhältlich, könnte die mobile Spracherkennung auf ein neues Niveau heben. Der Grund: Googles Server werden künftig bis zu zwei Jahre lang Sprachkommandos eines Nutzers vorhalten, um die Wortidentifizierung ständig zu verbessern. Diese Radikalform maschinellen Lernens könnte Datenschützer zwar schocken, doch technisch gesehen hat sie eine deutliche Verbesserung der Erkennungsleistung zufolge.

Das zeigte ein Kurztest. Nach dem Download verstand Voice Search vielleicht drei von fünf Suchanfragen korrekt. Nach wenigen Tagen klappten schon vier von fünf. Die Substantiverkennung funktionierte genauso gut wie das Abfragen von Flugzeiten oder das Anfordern des aktuellen Kinoprogramms. Voice Search kennt "United Flight 714" (United-Flug 714) ebenso wie "Tru Grit show times 90066" (Film "Tru Grit", Zeiten, Postleitzahl 90066). Weniger erfolgreich waren bislang noch Suchanfragen nach Personennamen. Aus "Wikileaks founder Julian Assange" wurde auch nach mehreren Versuchen nie mehr als ein "Wikileaks founder julian of songs". Trotzdem hilft das automatische Training im praktischen Betrieb ungemein.

Der Dienst arbeitet nicht lokal auf dem Handy, sondern setzt auf Servertechnik. Die Anwendung digitalisiert die Sprachkommandos und schickt sie per Internet in Googles "Cloud". Dort werden die einzelnen Worte auseinandergenommen und mit statistischen Modellen verglichen, die Googles Algorithmen über Jahre aus Sprachproben ermittelt haben. Neu ist nun, dass der Input auch mit früheren erfolgreichen Kommandos des Nutzers abgeglichen wird, um die Erkennungsleistung zu verfeinern.

Standardmäßig erkannt wird derzeit amerikanisches, britisches, australisches, indisches und südafrikanisches Englisch. Hinzu kommen die noch nicht personalisierbaren Sprachen Afrikaans, Kantonesisch, Tschechisch, Niederländisch, Französisch, Deutsch, Italienisch, Japanisch, Koreanisch, Mandarin, Polnisch, Portugiesisch, Russisch, Spanisch, Türkisch und Zulu.

Spracherkennung ist deshalb ein schwieriges Problem, weil menschliche Stimmen sich auch in der gleichen Sprache stark unterscheiden. Männer und Frauen, junge und alte Menschen sprechen Worte anders aus. Hinzu kommen zahllose Akzente und Dialekte. Durch die Speicherung hunderter oder gar tausender Spracheingaben der gleichen Person soll Voice Search besser werden und herausfinden, was der jeweilige Nutzer wirklich meint.

Das dafür notwendige mathematische Modell wurde innerhalb von drei Jahren optimiert. Google setzte dabei Sprachproben ein, die die automatische (und mittlerweile eingestellte) Telefonauskunft "GOOG-411" seit 2007 sammeln konnte. Dieses kostenlose Angebot wurde mit dem spezifischen Ziel betrieben, eine möglichst breite Datenbasis zu gewinnen. Die erste Voice-Search-Anwendung, die nur für das iPhone erschien, kam ein Jahr nach GOOG-411 auf den Markt.

Der Dienst kommt nicht nur für die Sprachsuche zum Einsatz, sondern dient auch als Sprachkommandosystem für das Telefon selbst. Damit ist es mittlerweile sogar möglich, E-Mails zu adressieren sowie Betreff und Inhalt auszufüllen. Die Adressierung klappt dort sogar besser, weil Voice Search nur die eigenen Kontakte durchsuchen muss. Vor dem Absenden schaut man noch einmal kurz drüber und editiert wenn nötig von Hand.

Google hat also viel Arbeit in seine Spracherkennungstechnik gesteckt. Die Motivation dabei ist simpel: Je leichter es ist, Eingaben auf Smartphones zu vorzunehmen, desto häufiger werden die Dienste des Unternehmens auch genutzt. Und das wiederum schafft Flächen für gut zu verkaufende Werbung. (bsc)