Accessibility: Google gibt die Speech Engine von Live Transcribe quelloffen frei

Entwickler sind aufgefordert, die Spracherkennungssoftware zum Ausbau der Barrierefreiheit von Android im Rahmen der Community weiterzuentwickeln.

In Pocket speichern vorlesen Druckansicht 3 Kommentare lesen
Accessability: Google gibt die Speech Engine von Live Transcribe quelloffen frei
Lesezeit: 2 Min.
Von
  • Matthias Parbel

Im Bemühen, die Accessibility von Android weiter zu verbessern, hatte Google zum Jahresauftakt die neue Anwendung Live Transcribe veröffentlicht, die automatisierte Untertitel für gehörlose oder schwerhörige Menschen erzeugt. Nach mehrmonatigen Tests der Spracherkennungsfähigkeit gibt Google nun die Speech Engine von Live Transcribe als Open Source frei, um die Entwickler-Community aktiver in die weitere Optimierung der Software einzubinden.

Live Transcribe baut auf der Cloud Speech API auf, über die Google schon seit Längerem verschiedene Cloud-Sprachdienste wie Text-to-Speech und Speech-to-Text zur Verfügung stellt. Bei der Spracherkennung in Echtzeit gilt es jedoch, besondere Herausforderungen zu meistern, wie die Google-Entwickler im Rahmen umfangreicher Tests mit verschiedenen Codecs feststellen mussten. So hängt die Genauigkeit der Transkription maßgeblich von der Qualität der zur Verfügung stehenden Mobilfunk- beziehungsweise Netzwerkverbindung ab. Dabei spielen Bandbreite, Latenzen sowie der verwendete Codec entscheidende Rollen, die sich neben der Genauigkeit auch auf die Kosten für die Datenübertragung in der Praxis auswirken.

Die bisherigen Tests mit Live Transcribe konzentrieren sich auf die Audio Codecs FLAC, AMR-WB und Opus. Der verlustfrei komprimierende Free Lossless Audio Codec lieferte erwartungsgemäß die höchste Genauigkeit, setzt dafür aber auch hohe Datenraten voraus. Mit AMR-WB konnten die Google-Entwickler zwar eine sparsamere Datenübertragung erreichen, mussten aber merkliche Einbußen bei der Qualität der Transkription hinnehmen – insbesondere in geräuschvollen Umgebungen. Den besten Kompromiss zwischen Genauigkeit und den Datentransferanforderungen lieferte offenbar der Opus-Codec. Bei Datenraten, die deutlich unterhalb der für Musik-Streamingdienste erforderlichen lagen, habe Live Transcribe mit Opus noch eine akzeptable Spracherkennung erreicht, die auch in lauten Umgebungen alle wichtigen Inhalte korrekt wiedergegeben habe. (map)