Immer besser, immer mehr

Lange mühte Spracherkennung sich darum, ernstgenommen zu werden. Nun kann Gesprochenes bereits erkannt werden, ohne dass es ausgesprochen werden muss.

4

12.07.2019, 06:00 Uhr

Lesezeit: 3 Min.

MIT Technology Review

Von

Peter Glaser

In den Achtzigerjahren begannen James und Janet Baker an der Carnegie Mellon University in Pittsburgh mit der Entwicklung der ersten Software zur Spracherkennung am PC – Dragon Dictate kam 1990 für anfangs happige 9000 Dollar auf den Markt, und das, obwohl es nur zwischen 30 und 40 Wörter pro Minute erkennen konnte (ein Mensch redet ungefähr viermal so schnell). Aber offenbar entsprach die Software einem dringenden Nutzerbedürfnis, das aus Dragon Systems ein Unternehmen mit mehreren Hundert Mitarbeitern machte. 1997 konnte die Software bereits fließend Gesprochenes erkennen und kostete 160 Dollar.

In der Spracherkennung überließ man das Lernen nun Künstlichen Neuronalen Netzen, die beim Deep Learning in Schichten übereinander angeordnet werden. Steigende Rechenleistung, wachsende Trainingsdatenbestände und mächtige, neue Player wie Google, Apple und Amazon verliehen dem Deep Learning mächtig Schubkraft. 2009 gelang es einer Forschungsgruppe um Geoffrey Hinton an der Universität Toronto, von ihrer trainierten Software Übersetzungen anfertigen zu lassen, die genauer waren als die sämtliche Vorgänger, welche auf regelbasierten Systemen beruhten. Das Ergebnis ließ die großen Namen der Smartphonebranche aufhorchen. Heute baut nicht nur das Spracherkennungsmodul von Apples digitaler Assistentin Siri auf Deep Learning auf. Als Google die Spracherkennung für Android damit ausstattete, sank die Fehlerquote um 25 Prozent. "Dafür hätte man früher zehn Jahre Entwicklungszeit veranschlagt", so Hinton. "Das war wie zehn Durchbrüche auf einmal."

Einer Analyse der Marktforscher von Markets and Markets zufolge soll der Markt für maschinelles Lernen von 1,25 Milliarden Euro in 2017 auf rund 7,8 Milliarden Euro im Jahr 2022 wachsen. Wie technologische Flaschengeister erfüllen digitale Assistenten von Amazons Alexa bis zu Microsofts Cortana immer besser immer mehr Aufgaben. Sie sind ein wesentlicher Baustein bei der künftigen Vermarktung von künstlicher Intelligenz. Apple-Nutzer in den USA können bereits ihren VW veranlassen, auf Siri zu hören, und sowohl Amazon als auch Google haben ihre Assistenten für die Nutzung im Fahrzeug adaptiert. Allerdings möchten Autohersteller das Füllhorn an Daten, das moderne Autos produzieren, gern für sich behalten und knausern beim Zugang zum Bordnetz. BMW etwa will in seinen Fahrzeugen einen eigenen Sprachassistenten einbauen – die technische Grundlage dazu liefert der Weltmarktführer für Spracherkennungs-Software: die Firma Nuance Communications, vormals Dragon Systems.

Sprachsteuerung gilt vielen als der Punkt, an dem sich Mensch und Maschine künftig bevorzugt berühren werden. Auch die Gefahr, dass alle kreuz und quer durcheinanderreden, lässt sich mit raffinierter Technik vermeiden. Ein am MIT Media Lab entwickeltes Spracherkennungssystem namens AlterEgo erfasst Eingaben, ohne dass sie laut ausgesprochen werden müssen. Ein neuartiges Headset, das ohne Mikrofon auskommt, setzt dabei auf Sensoren, die Signale an die Gesichtsmuskeln registriert. Solche Reize sendet das Gehirn nicht nur, wenn der Mund bewegt wird, sondern schon dann, wenn man im Stillen einen Text liest oder einen inneren Monolog hält. Die Forscher fanden heraus, dass diese Muskelreize mit Hilfe von Sensoren registriert werden können und das System mit hoher Genauigkeit die beabsichtigten Wörter erkennt. Sagen Sie jetzt nichts – ich weiß, was Sie denken.

(bsc)