Das Ende der blechernen Stimmen

Wenn Maschinen mit uns reden, klingt dies nicht wirklich natürlich. Der japanischer Technikkonzern Fujitsu hat nun eine Software für die Sprachsynthese vorgestellt, die je nach Umstand ihren Tonfall ändern kann.

1

03.04.2014, 00:01 Uhr

Lesezeit: 3 Min.

MIT Technology Review

Von

Martin Kölling

Wenn Maschinen mit uns reden, klingt dies nicht wirklich natürlich. Der japanischer Technikkonzern Fujitsu hat nun eine Software für die Sprachsynthese vorgestellt, die je nach Umstand ihren Tonfall ändern kann.

Der Mensch hat ein Kommunikationsproblem: Wir umgeben uns mit immer mehr Automaten und virtuellen Gesprächspartnern, doch sind diese keinesfalls perfekt.Ihr Vokabular ist noch so begrenzt, dass von einer sinnstiftenden Konversation nicht die Rede sein kann. Auch die Stimmen sind noch etwas monoton, merkwürdig moduliert oder deplatziert, weil die Software, die sie generieren, den Tonfall nicht an die Situation anpassen kann.

Der japanische Technikkonzern Fujitsu will das nun ändern. Mit einem neuen Programm sollen Stimmen kontextabhängig ihre Tonlage ändern können. In normalen Situationen sprechen sie normal, bei Problemen besorgt und bei Gefahr im Verzug alarmierend. Der Konzern malt sich dies als nette Idee für Ansagen in Fabriken und Museen oder für Warnungen vor Tsunamis aus.

Darüber hinaus verspricht der Konzern, dass die Software sehr gut darin ist, Stimmen einzulesen. 30 mal schneller als mit bisherigen Technologien soll das gehen. Ein Anwendungsbeispiel haben die Entwickler auch gleich parat: So könnten Kranke ihre Stimme einlesen, bevor sie sie verlieren, um dann nach später weiter mit der eigenen Stimme kommunizieren zu können – nur eben nicht mehr sprechend, sondern tippend.

Weitere Möglichkeiten für den Einsatz der Technik im Alltag sind erheiternd und befremdlich zugleich. Eine Idee ist natürlich, dass wir nach unserem Tod weiter zu unseren Liebsten sprechen können. Oder besser: Unsere Liebsten unsere Stimme hören lassen können – möglicherweise mit vor dem Tod bereitgestellten Texten.

Auch interessant ist, dass man Texte schreiben und per Mail schicken könnte, die sich dann die Adressaten mit der Stimme des Absenders vorlesen lassen. Oder noch besser: Audiobücher. Bisher liest ein professioneller Schauspieler sie oft ein, was den Preis für Hörliteratur in die Höhe treibt. In Zukunft wird sich vielleicht jedes elektronische Buch selbst vorlesen, mit der Stimme unserer Wahl. Toll ist dies für den Nachwuchs besonders von Elternteilen, die oft auf Reisen sind – oder lieber vor dem Fernseher sitzen, als ihre elterlichen Freuden und (Vorlese-)Pflichten wahrzunehmen.

Doch etwas unbehaglich wird mir bei der Idee, dass Maschinen, Roboter, virtuelle Wesen mit mir in meiner oder der Stimme von Partnern, Freunden, Eltern, Kindern sprechen. Da verschwimmen die Grenzen zwischen Mensch und Nicht-Mensch doch verstörend stark. Ein anderer Punkt sind natürlich die Jobverluste besonders bei den erwähnten Schauspielern, die sich als Vorleser oft noch ihren kargen Lohn aufbessern können.

Zum Abschluss noch ein versöhnlicher Gedanke für Textjournalisten wie mich, die sich vor der Tastatur wohler fühlen als vor der Kamera oder dem Mikrofon: Wenn die Menschen unter dem Dauerbeschuss von Videos und Audiobüchern langsam das Lesen verlernen sollten und die Gesellschaft dann wieder mehr mit Bildern und mündlichen Erzählungen arbeitet, kann ich weiterhin meine Texte schreiben wie gehabt – und sie dann vorlesen lassen. (bsc)