Spracherkennung mit Laser

Virtuelle Assistenten verstehen ihre Nutzer nicht immer richtig, was zum Teil an Störgeräuschen aus der Umgebung liegt. Ein optisches Sensorsystem soll die Genauigkeit der Erkennung bald deutlich erhöhen.

In Pocket speichern vorlesen Druckansicht 2 Kommentare lesen
Lesezeit: 3 Min.
Von
  • Rachel Metz
Inhaltsverzeichnis

Ob sie Siri heißen oder Alexa – wir sprechen zunehmend mit virtuellen Assistenten. Allerdings haben die digitalen Helfer immer noch Probleme, einfache Anweisungen zum Starten von Musik oder Anzeigen von Wegen zu verstehen, vor allem in lauten Umgebungen.

Das israelische Start-up VocalZoom möchte diesem Problem begegnen, indem es nicht etwa versucht, das Audio-Signal mit der Stimme des Nutzers besser aufzubereiten. Stattdessen sollen ein Sensor und ein winziger Laser mit geringer Leistung die minimalen Vibrationen der Haut beim Sprechen erkennen. Laut dem Unternehmen könnte dies verschiedenste Anwendungen mit Spracherkennung deutlich verbessern.

VocalZoom, bislang mit 12,5 Millionen Dollar Risikokapital ausgestattet, möchte seine Sensoren und Laser zunächst in Headsets und Helme einbauen. Dort sollen sie zusammen mit bestehenden Methoden der Spracherkennung über Mikrofone die Gesamtzahl der Fehler verringern.

Tal Bakish, Gründer und CEO von VocalZoom, geht davon aus, dass sein System zunächst für Motorradhelme oder Headsets von Lagerarbeitern eingesetzt wird – beispielsweise könnte man damit nach der Route fragen, während man auf seiner Harley fährt. Ein chinesisches Unternehmen aus dem Bereich Spracherkennung namens iFlytek will bis Ende August einen Prototypen für ein Headset fertigstellen. Außerdem rechnet Bakish damit, dass das System ab 2018 auch in Autos zu finden sein wird, wo es Sprachbefehle vom Fahrer entgegennimmt. Das Unternehmen hat nach seinen Worten Vereinbarungen über gemeinschaftliche Entwicklungen mit mehreren Automobil-Unternehmen getroffen, die Bakish allerdings nicht öffentlich nennen will. Darüber hinaus wolle er die Technologie auch in Smartphones bringen.

In einem lebhaften Café in Boston zeigt Bakish eine noch nicht funktionierende Version des ersten Produkts von VocalZoom, die in diesem Sommer fertig werden soll: ein winziger Sensor mit einem Laser, der direkt auf das Gesicht zielt (laut Bakish ohne Gefährdung der Augen nach den Regeln der US-Gesundheitsbehörde FDA). Wenn er zum Beispiel an einem Headset getragen wird, misst er das Tempo der Vibrationen der Gesichtshaut, während gleichzeitig ein Mikrofon das Audio-Signal erfasst. Software vergleicht dann diese beiden Signale, um die beste Annäherung an das zu finden, was der Nutzer sagen wollte.

Laut Bakish kann der VocalZoom-Sensor Vibrationen der Haut von den Augen abwärts bis zum Hals erkennen, und zwar auch von hinten, beispielsweise über Vibrationen hinter den Ohren. Der Laser arbeite bis auf einen Meter Entfernung, wobei fünf Zentimeter Abstand zum Beispiel in einem Headset ausreichend seien. Zusammen mit normaler Audio-Spracherkennung sei es mit dem System möglich, die Fehlerrate um 60 bis 80 Prozent zu verringern.

Abe Davis, ein Doktorand am Computer Science and Artificial Intelligence Laboratory des MIT, hat in einem ähnlichen Bereich gearbeitet: Er hat versucht, Audio-Informationen durch die Analyse von Videoaufzeichnungen der winzigen Vibrationen von unterschiedlichen Objekten zu gewinnen. Nach seinen Worten könnte es schwierig werden, VocalZoom in Autos zum Funktionieren zu bringen – hier könne zum Beispiel stören, dass sich der Kopf hin- und herbewegt.

In einem Headset oder Helm aber könnte das System laut Davis sinnvoll sein. "Man muss dann nur dafür sorgen, dass der Laser richtig ausgerichtet ist", sagt er.

(sma)