Spracherkennung: Google erweitert die Cloud Speech API

Der Dienst zum Umwandeln von gesprochenem in geschriebenen Text kann nun Audiodateien mit bis zu drei Stunden Länge verarbeiten. Außerdem gibt es 30 neue Sprachvarianten.

4

14.08.2017, 11:55 Uhr

Lesezeit: 1 Min.

Developer

Von

Rainald Menge-Sonnentag

Google hat die Cloud Speech API um einige Sprachvarianten und Funktionen erweitert. Der Internetriese hatte den Dienst für die automatische Spracherkennung im Frühjahr 2016 vorgestellt und gut ein Jahr später zum vollwertigen Service erhoben. Er bietet eine API, mit der Entwickler den Cloud-Dienst in eigene Anwendungen integrieren.

Zu den Anfangs gut 80 Sprachen beziehungsweise Varianten kommen 30 neue hinzu, darunter Suaheli, Javanisch und Englisch, wie es in den afrikanischen Staaten Ghana, Kenia, Nigeria und Tansania gesprochen wird. Laut dem Blogbeitrag decken die neuen Varianten zusammen mehr als eine Milliarde zusätzlicher Menschen ab.

Die Dateien zur Umwandlung in Text dürfen nun mit einer maximalen Länge von drei Stunden mehr als doppelt so lang wie das bisherige Maximum von 80 Minuten sein. Für Sonderfälle gibt es zudem wohl die Option, die Quota für Einzelfälle anzuheben. Neben den frischen Neuerungen weist der Blogbeitrag auch darauf hin, dass Cloud Speech nun Zeitstempel bietet, über die sich der passende Text beim Abspielen der Audiodatei anzeigen lässt. Außerdem können sich Anwender damit beim Lesen des umgesetzten Textes die jeweils passenden Wörter vorspielen lassen. (rme)