Dein Freund und Lauscher

Sprachassistenten wie Alexa oder Siri werden immer besser. So gut wie Menschen verstehen sie gesprochene Worte zwar noch lange nicht, doch zum Spionieren reichen ihre Fähigkeiten bereits.

In Pocket speichern vorlesen Druckansicht
Lesezeit: 4 Min.
Von
  • Niels Boeing

Der Super Bowl ist das amerikanische Sportereignis des Jahres. Millionen verfolgen am Fernseher, wer Meister im American Football wird. Und manchmal verliert der Favorit. Der Super Bowl 2017 hatte indes eine ganz eigene Überraschung parat. Als in der Pause ein Werbespot lief, erwachte in Tausenden von Haushalten eine kleine Kiste zum Leben. „Entschuldigung, da ist etwas schiefgegangen“, plapperten sie drauflos. Da war in der Tat etwas schiefgegangen: Im Spot von Google hatten die Geräte das Schlüsselwort „Ok Google“ vernommen – was die Spracherkennung der Smart Speaker, in diesem Fall der Marke Google Home, aktivierte. Die sollte eigentlich nur anspringen, wenn der Käufer des Geräts die Worte spricht.

Der Vorfall ließ binnen Minuten Twitter hochkochen, die Online-Medien folgten. Er schien das Unbehagen zu bestätigen, das viele Nutzer von Smart Speakern immer wieder beschleicht: Was versteht der Heimassistent wirklich? Werde ich im Hintergrund gar rund um die Uhr belauscht?

Smart Speaker sind die jüngste – und wohl interessanteste – Anwendung einer Computersteuerung per Sprache. Seit Apple 2011 Siri in das Betriebssystem von iPhones integrierte, haben vergleichbare Sprachassistenten den Weg in Millionen Geräte gefunden. 700 Millionen iPhone-Nutzern steht Siri inzwischen zur Verfügung, 400 Millionen Nutzer können mit dem Google Assistant sprechen, weitere 400 Millionen mit Microsofts Assistent Cortana. Aber erst die auf Smart Speakern von Amazon installierte Alexa hat die Technologie ins Rampenlicht gebracht.

Die Assistenten wandelten sich zum Mitglied des Haushalts und lachen auch schon einmal unmotiviert los, wie Anfang März bei Amazons Echo-Geräten geschehen. Wie also funktionieren die Geräte wirklich? Und was hören sie mit?

Die Sprachassistenten der großen IT-Konzerne sind das Ergebnis eines neuen Ansatzes in der Künstliche-Intelligenz-Forschung: des sogenannten Deep Learning – des maschinellen Lernens mittels tiefer neuronaler Netze. Seine Anwendung in der maschinellen Sprachverarbeitung geht unter anderem auf eine bahnbrechende Veröffentlichung von 1997 zurück, in der Sepp Hochreiter von der TU München und Jürgen Schmidhuber vom Schweizer KI-Labor IDSIA das Konzept der Long Short-Term Memory vorstellten. Hierbei werden Fehler in der Verarbeitung des Inputs so korrigiert, dass eine Art Kurzzeitgedächtnis im neuronalen Netz entsteht, das über rund 1000 Zeitschritte in der Berechnung anhält. Es dauerte dann noch rund 15 Jahre, bis dieser Ansatz zur Standardtechnologie wurde. Stärkere Rechenleistung, Cloud Computing und Big Data machten es nun möglich, Audiosignale des gesprochenen Worts nicht nur in Schritten von zehn Millisekunden zu analysieren, sondern auch eine Erinnerung an frühere Gespräche aufzubauen. Die neuronalen Netze hinter dieser Spracherkennung haben Dutzende Neuronenschichten zwischen künstlichen Input- und Output-Neuronen. Die werden mit enormen Datenmengen trainiert, um einen Satz zu verstehen, etwa die Frage „Regnet es heute irgendwann?“, die ein Nutzer beispielsweise in Manhattan stellt. Das Deep Learning „hat der Spracherkennung einen enormen Qualitätssprung beschert“, sagt Volker Fischer, Forschungsleiter des European Media Laboratory in Heidelberg. Dort wird derzeit im Projekt Listen eine Sprachsteuerung für Smart Homes entwickelt.

Die Fokus-Artikel im Einzelnen:

Seite 68 - Einführung: Wie sprechende Maschinen unser Verhältnis zum Computer verändern

Seite 70 - Übersicht: Was Alexa und Co. wirklich können – und wie sie funktionieren

Seite 74 - Stimmanalyse: Was der Klang der Worte über unsere Persönlichkeit verrät

Seite 78 - Interview: Wie Siri zu ihrer Stimme gekommen ist

Seite 80 - Beziehung: Warum sich japanische Männer eine Hologramm-Freundin wünschen

Seite 82 - Serviceroboter: Wann die Haushaltshelfer endlich geschickter werden

(nbo)