Machine Learning: Google erweiterte die Cloud-Sprachdienste

Cloud Text-to-Speech ist nun allgemein verfügbar, und Cloud Speech-to-Text unterscheidet einzelne Sprecher.

29.08.2018, 10:12 Uhr

Lesezeit: 2 Min.

Von

Rainald Menge-Sonnentag

Google hat seine Cloud-Angebote zur Spracherkennung und -synthese erweitert. So ist Cloud Text-to-Speech nach einer knapp fünfmonatigen Betaphase nun allgemein verfügbar. Außerdem hat der Internetriese neue Sprecherprofile hinzugefügt und die Zahl der verfügbaren Sprachen erweitert. Die Spracherkennung bringt einige zusätzliche Funktionen, die sich derzeit noch im Betastadium befinden.

Neuronaler Netze für natürlichere Sprachausgabe

Die Zahl der von Cloud Text-to-Speech ausgegebenen Sprachen hat Google nun auf vierzehn erweitert, wobei unter anderem amerikanisches, britisches und australisches Englisch als separate Sprachen zählen. Für eine natürlichere Sprachausgabe setzen die Betreiber bereits seit geraumer Zeit mit WaveNet auf ein künstliches neuronales Netz zusätzlich zur herkömmlichen Sprachsynthese durch die Kombination kleiner Fragmente. Mit der allgemeinen Verfügbarkeit von Cloud Text-to-Speech erweitern die Macher die Zahl der WaveNet-Stimmen auf insgesamt 26, darunter vier deutsche.

Noch im Betastadium befinden sich die Audioprofile, die das Ausgabegerät berücksichtigen. Damit lässt sich beispielsweise die Wiedergabe über Kopfhörer anders einstellen als über Lautsprecher. Für die Ausgabe über die eine Telefonverbindung filtert das System die nicht hörbaren Bereiche heraus und verstärkt einzelne Bereiche. Das Ergebnis mag über Lautsprecher schlechter klingen, soll aber über die Verbindung mit der eingeschränkten Klangqualität und dem verringerten Frequenzbereich klarer verständlich sein.

Spracherkennung für Gesprächsrunden

Für den umgekehrten Weg von gesprochenem zu geschriebenen Text hat Google die Beta-Angebote für Cloud Speech-to-Text ergänzt. Für das Mitschreiben von Aufnahmen, die mehrere Sprecher aufweisen, bietet das Spracherkennungssystem zwei Erweiterung. Die sogenannten Multichannel Recognition wertet schlicht die unterschiedlichen Kanäle beispielsweise bei Telefongesprächen zwischen Kunden und deren Betreuern aus, um die Sätze den passenden Sprechern zuzuordnen.

Für Aufnahmen aus einer zentralen Quelle wie einem Mikrophon in einer Konferenz lässt sich die Zahl der Sprecher über einen API-Parameter festlegen. Das System weist anschließend die übertragenen Textpassagen den Sprechern zu, es lernt über den Gesprächsverlauf und aktualisiert dabei die Zuweisungen, sodass es umso genauer arbeitet, je länger es eine Konversation verfolgt.

Derselbe Text wird durch die Zuordnung einzelner Sprecher deutlich übersichtlicher.

(Bild: Google)

Neu ist zudem eine automatische Erkennung der jeweiligen Sprache. Die zugehörige API ermöglicht dafür die Auswahl von bis zu vier Sprachen für die gesprochene Steuerung und Suche. Darüber hinaus haben die Macher die Bewertung der Zuverlässigkeit für die Spracherkennungsrate auf Wortebene gebracht und dafür die sogenannten Word-Level Confidence Scores eingeführt. (rme)