Machine Learning: Mit Amazon Polly soll KI wie ein Nachrichtensprecher klingen

Für "Hier ist das Erste Deutsche Fernsehen" kann man die neuen Funktionen von Amazon Polly noch nicht einsetzen – bislang gibt es nur englische Stimmen.

vorlesen Druckansicht
Amazon

(Bild: dpa, Holger Hollemann)

Lesezeit: 2 Min.
Von
  • Björn Bohn

Der Cloud-Computing-Anbieter Amazon Web Services (AWS) hat Amazon Polly, seinen verwalteten Dienst zum Umwandeln von Texten in Sprache, um eine Reihe neuer Funktionen ergänzt, die die generierten Stimmen lebensechter wirken lassen sollen. Dazu setzt AWS auf einen Machine-Learning-Ansatz namens Neural-Text-to-Speech (NTTS), der dem Gesagten eine gewisse Natürlichkeit und Ausdrucksfähigkeit verleihen soll. Neben 11 neuen Stimmen in britischem und amerikanischem Englisch bietet Amazon Polly ebenfalls eine männliche und weibliche US-Stimme, die wie Nachrichtensprecher klingen sollen.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externes Video (TargetVideo GmbH) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (TargetVideo GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Laut dem Blogbeitrag zu den Neuerungen setzen Nachrichtenseiten wie The Globe and Mail Amazon Polly bereits ein, um geschriebene Texte in gesprochene Sprache umzuwandeln. Amazon Polly ist derzeit für 29 Sprachen mit insgesamt 59 Stimmen verfügbar. Deutsch zählt zwar auch dazu, bis die neuen Funktionen aber auch im deutschsprachigen Raum verfügbar sind, wird wohl noch eine gewisse Zeit vergehen.

Amazon hatte Polly erstmals im Rahmen der AWS re:invent 2016 vorgestellt. Es eignet sich für Anwendungsbereiche, in denen geschriebener Text automatisch in eine gesprochene Sprache umgewandelt werden soll. Es besteht darüber hinaus die Gelegenheit, Polly im Zusammenspiel mit anderen AWS-Diensten einzusetzen. Etwa Amazon Translate: Dadurch können Anwender einen Text automatisch übersetzen lassen und Nutzer bekommen den Text in einer für sie verständlichen Sprache vorgelesen.

Ein Einsatz der neuen Funktionen soll wohl relativ leicht von der Hand gehen. Während der Einsatz von Amazon Polly bislang beispielsweise folgenden Code benötigte:

$ aws polly start-speech-synthesis-task
--voice-id Matthew --text file://s3.txt
--output-s3-bucket-name "jsimon-polly" --output-format mp3
--query "SynthesisTask.TaskId"
"e3db409c-419d-4a31-a3a7-72c1e712fe23"
$ wget https://jsimon-polly.s3.amazonaws.com/e3db409c-419d-4a31-a3a7-72c1e712fe23.mp3 -O matthew-standard.mp3
Tell us a bit about S3, Matthew.

Ist lediglich ein Setzen der Flag --engine neural nach der Auswahl der Voice-ID notwendig, um die NTTS-Fähigkeiten zu nutzen. Um die Stimme dann noch wie einen Nachrichtensprecher klingen zu lassen, muss man die Textdatei in eine SSML-Markup-Datei umwandeln und den Text in

<speak>
<amazon:domain name="news">
This is a news text.
</amazon:domain>
</speak>

verpacken. Informationen zu den Preisen für Amazon Polly bietet die offizielle Website des Projekts. (bbo)