Autokorrektur für gesprochene Sprache

Google will verstümmelte Gespräche mit Deep Fakes verständlicher machen.

09.04.2020, 09:48 Uhr

Lesezeit: 2 Min.

Von

Gregor Honsel

Was mir an Videokonferenzen am meisten auf den Zeiger geht: Ständig zirpt, rumpelt, scheppert irgendwas in der Leitung, drängen sich Hintergrundgeräusche in den Vordergrund – wie bei einem billigen Walkie-Talkie. Ich dachte eigentlich, die Technik sei heute weiter.

Nun will Google zumindest die Verständlichkeit verbessern: Eine Künstliche Intelligenz soll Sprachaussetzer, die durch verlorene Datenpakete entstehen, automatisch füllen. Das klingt sehr ambitioniert, denn erstens muss die Software dafür wissen, was der jeweilige Mensch eigentlich sagen wollte, und zweitens muss sie den verlorenen Tonschnipsel verzögerungsfrei und glaubwürdig synthetisieren.

Für den ersten Schritt trainierten Google-Forscher ein neuronales Netz von DeepMind mit Aufnahmen von hundert Sprechern in 48 Sprachen. Dabei erlernte die KI die typischen Muster menschlicher Kommunikation und war dadurch in der Lage, kurze Lücken zu füllen. Eine weitere Software extrahiert die stimmliche Charakteristik einer Sprecherin oder eines Sprechers, um passgenauen Ersatz generieren zu können – eine Art Deep Fake also.

Diese Technik wird bereits in der Googles Videotelefonie-App "Duo" benutzt, heißt es in einem Blog vom 1. April. (Ich unterstelle mal, dass es kein Aprilscherz war.) Da Duo-Gespräche laut Google von Ende zu Ende verschlüsselt sind, läuft der ganze Prozess nicht in der Cloud, sondern lokal auf einem Smartphone (derzeit nur auf Pixel-4-Geräten).

Im Moment geschieht die Autokorrektur eher mit Silben als mit ganzen Wörtern. Bei den von Google online gestellten Beispielen ist der Eingriff kaum zu bemerken – die korrigierten Schnipsel klingen immer noch abgehackt, aber einen Hauch verständlicher. Deutlicher wird es erst beim letzten Beispiel (120 Millisekunden Paketverlust), wo das komplette Wort "trouble" nahtlos und unauffällig ergänzt wurde.

Technisch ist das alles sehr beeindruckend. Aber wenn ich mir überlege, wie lausig textbasierte Autokorrekturen mitunter immer noch sind, macht mir die Sache ein wenig Angst. Bei Textnachrichten kann der Absender vor dem Abschicken noch mal drüberlesen, bei verstümmelten Sprachnachrichten der Empfänger nachfragen. Doch welche Flut an Missverständnissen könnte eine übereifrige Autokorrektur für Gespräche auslösen? Lebte Loriot noch, könnte er daraus eine ganze Serie neuer Sketche stricken.

(grh)