Mozilla Common Voice: Sprachsteuerung für alle und ohne Rückgriff auf die Cloud

Spracherkennung statt Abhörwanzen: Mozillas Sprachdatenbank Common Voice und die Speech-to-Text-Engine DeepSpeech kommen ohne Umweg über die Cloud aus.

101

29.11.2017, 17:00 Uhr

Lesezeit: 2 Min.

Von

Herbert Braun

Mozilla veröffentlicht am heutigen Mittwoch die Daten seines Projekts Common Voice. Darin stecken 400.000 validierte und transkribierte Sprachaufnahmen mit einer Gesamtlänge von 500 Stunden. 200.000 Nutzer sprachen dafür in Website und App kurze englischsprachige Texte ein. Nach eigenen Angaben ist Common Voice damit hinter LibriSpeech die derzeit zweitgrößte frei zugängliche Sprachdatenbank, wächst jedoch kontinuierlich weiter. Andere Sprachen als Englisch will Mozilla "schon bald" in Angriff nehmen. Entwickler dürfen mit Common Voice Spracherkennungssysteme bauen – was Mozilla selbst auch tut.

Am Anfang des Common-Voice-Projekts stand die Überzeugung, dass Sprachsteuerung eine wichtige Technik für die nahe Zukunft werden dürfte. Um entsprechende Techniken zu entwickeln, die unabhängig von den großen Cloud-Anbietern laufen, trug Mozilla erst bestehende Korpora zusammen, von denen manche schwer zu finden (einige sind auf der Common-Voice-Seite verlinkt) und andere sehr teuer waren. Allerdings genügte das den Mozilla-Entwicklern nicht, so dass sie eine eigene Datenerhebung organisierten.

20 GPUs waren eine Woche beschäftigt

Mozilla nahm für sein eigenes Spracherkennungsprojekt DeepSpeech zwei wissenschaftliche Arbeiten von Baidu als Grundlage und versuchte, diese mit Hilfe von Googles Maschinenlern-Bibliothek TensorFlow und den zusammengetragenen Daten umzusetzen – kein leichtes Unterfangen, wie sich zeigte. Um belastbare Ergebnisse zu erhalten, mussten die Entwickler ein Sprachmodell heranziehen, um homophone und ähnlich klingende Wörter mit kontextabhängigen Wahrscheinlichkeiten versieht.

Ziel war es, die Fehlerquote unter die Zehn-Prozent-Marke zu drücken. Dass eine Spracherkennung jedes zehnte Wort falsch versteht, klingt viel, ist aber nicht weit von menschlichem Sprachverständnis entfernt – hier kamen die Baidu-Forscher auf eine Fehlerquote von 5,83 Prozent. Nach eigenen Tests erreicht DeepSpeech 6,5 Prozent. Wer das nachbauen will, muss ein bisschen Zeit und Rechenleistung einplanen: Das Cluster aus drei Rechnern mit insgesamt 20 GPUs, das Mozilla verwendete, war eine Woche mit dem Training beschäftigt.

Sprachsteuerung ohne Abhörwanze

Dieser Aufwand ist jedoch nicht nötig, denn Mozilla stellt auch das fertig trainierte Modell zur Verfügung; es lässt sich auf verschiedene Weisen installieren und erkennt Sprache auf einem PC mit GPU schneller, als sie gesprochen wird. In der Zukunft soll das auch auf Smartphones und RasPis laufen. Wenn Spracherkennung ohne Cloud-Anbindung funktioniert, gibt es eine Aussicht auf Geräte mit Sprachsteuerung, die nicht zugleich Abhörwanzen ihrer Hersteller sind. (dbe)