Google Echtzeit-Übersetzer: Mehr als Wort zu Wort Übersetzungen

Googles Echtzeit-Übersetzer schaut voraus und denkt das Gesprochene mit, erklärt Niklas Blum, Director Product Management.

vorlesen Druckansicht
Schrift schwebt in der Luft.

(Bild: Familiy Stock / Shutterstock.com)

Lesezeit: 5 Min.
close notice

This article is also available in English. It was translated with technical assistance and editorially reviewed before publication.

Mitten im Meeting Englisch sprechen, während das Gegenüber die Worte in perfektem Spanisch hört – in Echtzeit. Was lange als Science-Fiction galt, rollt Google nun mit Meet und auf Pixel-Geräten aus. Hinter der Funktion steckt dieselbe KI, die auch Gemini antreibt – und ein komplexes Zusammenspiel spezialisierter Übersetzungsmodelle und generativer Sprach-Module.

Wir haben mit Googles Director Product Management, Niklas Blum, über die zugrunde liegende Technik gesprochen: Wie funktioniert die End-to-End-Sprachübersetzung, die sogar die Originalstimme erhält? Wie arbietet das internationale Team? Und wo liegen die größten Hürden bei der Übersetzung von gesprochener Sprache?

Mit Google Meet kann jeder in einer anderen Sprache sprechen – in Echtzeit. Das klappt mittels KI, konkret ist es derselbe Übersetzer wie in Gemini. Wie funktioniert das? Was passiert in dem Modell?

Aktuell setzen wir spezialisierte Modelle für die Übersetzung und Gemini für die Sprachgenerierung ein. Diese Architektur setzt auf das AudioLM-Framework sowie Transformer-Blöcke und ist darauf ausgelegt, kontinuierliche Audioströme zu verarbeiten. Das ermöglicht es dem Modell, selbstständig zu entscheiden, wann die Übersetzung ausgegeben wird. Wir haben dazu kürzlich einen technischen Research-Blogpost veröffentlicht, der die Funktionsweise dieser End-to-End Speech-to-Speech Translation (S2ST) unter Beibehaltung der Originalstimme erläutert.

Niklas Blum, Director Product Management bei Google

(Bild: Youtube)

Wie kommt es, dass an dem Echtzeit-Übersetzer ein Team aus Deutschland arbeitet?

Unser Team und unsere Kunden sind global aufgestellt. Die Teams, die an diesem Feature arbeiten, verteilen sich auf Berlin, Stockholm, Zürich, New York und Mountain View. Das Google-Team in Stockholm ist dabei ein zentraler Hub für Googles Echtzeitkommunikation.

Wofür lässt sich der Echtzeit-Übersetzer bisher nutzen? Er ist in Google Meet verfügbar, aber wo kommt er noch zum Einsatz, was ist geplant?

Die Technologie zur Echtzeit-Übersetzung ist auch auf Pixel-10-Geräten für Anrufe und in Google Translate verfügbar. Bei Google Meet konzentrieren wir uns speziell auf Anwendungsfälle für Echtzeit-Gespräche in Unternehmen, die in verschiedenen Märkten tätig sind und mit Sprachbarrieren zu tun haben. Wir glauben, dass diese Technologie, auch wenn sie noch am Anfang steht, sich rasant weiterentwickeln wird. Echtzeit-Übersetzungen haben das Potenzial, Menschen zu verbinden und Gespräche zu ermöglichen, die so vorher kaum realisierbar waren.

Gesprochene Sprache ist fehlerhafter als geschriebene Sprache. Wie geht das Modell damit um? Wird eins zu eins übersetzt, also auch jedes “ähm” und im Zweifelsfall ein abgebrochener Satz? Denn so sprechen wir manchmal ja. Oder zieht der Echtzeit-Übersetzer auch Schlüsse und bereinigt die Sprache quasi?

Unser Modell zur Echtzeit-Übersetzung nutzt Transformer-Blöcke und besteht aus zwei Hauptkomponenten: einem Streaming-Encoder, der die Quell-Audiodaten basierend auf den vorangegangenen zehn Sekunden der Eingabe zusammenfasst, und einem Streaming-Decoder. Letzterer sagt das übersetzte Audio autoregressiv vorher und nutzt dabei den komprimierten Encoder-Status sowie Vorhersagen aus früheren Iterationen.

Die Transformer-Blöcke ermöglichen es dem Modell, selbstständig zu entscheiden, wann die Übersetzung ausgegeben wird. Basierend auf den Trainingsdaten ist das Modell in der Lage, über reine Wort-für-Wort-Übersetzungen hinauszugehen. Das ist besonders hilfreich bei Redewendungen oder dem Erkennen von Eigennamen. Begriffe wie die „Golden Gate Bridge” werden nicht übersetzt.

Was ist die größte Schwierigkeit bei der Übersetzung gesprochener Sprache? Wo hapert es vielleicht auch manchmal noch?

Bei der Übersetzung gesprochener Sprache stehen drei wesentliche Herausforderungen in Konkurrenz zueinander: Wir wollen eine möglichst hohe Übersetzungsqualität, eine minimale Verzögerung und gleichzeitig die originale Stimmcharakteristik beibehalten. Für Echtzeit-Gespräche wird aktuell eine Standardverzögerung von zwei Sekunden genutzt, was für die meisten Sprachen gut funktioniert. Ein längerer „Lookahead“ des Modells würde durch den zusätzlichen Kontext zwar die Übersetzungsqualität verbessern, beeinträchtigt aber das Echtzeit-Erlebnis. Eine optimale Übersetzungsqualität in möglichst kurzer Zeit zu erzielen, bleibt die zentrale Herausforderung und ein Bereich für weitere Verbesserungen.

Videos by heise

Generell haben die Fortschritte bei der KI-Audioverarbeitung und der Modellqualität zuletzt große Sprünge gemacht. Das dürfte der Grund sein, weshalb branchenweit eine zunehmende Integration von Sprachübersetzung in verschiedene Produkte stattfindet.

Es gab eine Zeit, da haben Google und auch andere Anbieter ähnliche Übersetzungstools nicht veröffentlicht, weil Missbrauch drohte. Was hat sich geändert?

Wir integrieren diese Funktion nun in unsere Produkte, weil die Technologie einen gewaltigen Sprung nach vorn gemacht hat. Ich glaube, dass es bis vor Kurzem nicht möglich war, wirklich hochwertige dialogorientierte Dienste zu entwickeln, die den erforderlichen Qualitätsstandards entsprechen.

Wie steht es um die Gefahren vor Missbrauch, vor Deepfakes? Welche Schutzmaßnahmen gibt es?

Wir sind natürlich zum Einhalten der geltenden Datenschutzgesetze verpflichtet. Im Laufe der Jahre haben wir eng mit Datenschutzbehörden auf der ganzen Welt zusammengearbeitet und strenge Datenschutzmaßnahmen umgesetzt. So haben wir für Meet klare Richtlinien, wie unser Tool genutzt werden darf. Nutzer:innen ist es beispielsweise nicht gestattet, Meet zu verwenden, um sich als eine andere Person auszugeben.

Technisch gesehen funktioniert die Übersetzungsfunktion ähnlich wie die bestehende Audiokodierung, nur mit der zusätzlichen Funktion der Übersetzung. Jeder Ton, der an das Modell gesendet wird, erzeugt eine Ausgabe. Das Modell arbeitet mit einem 10-Sekunden-Kontextfenster und hat außerhalb dieses Fensters keine semantische Wahrnehmung des gesprochenen Inhalts.

(emw)