110 neue Sprachen bei Google Translate, auch Südniederfränkisch

Googles automatischer Übersetzungsdienst soll eines Tages jede siebte Sprache unterstützen. Jetzt kommen 110 zusätzliche Sprachen, der bislang größte Schritt.​

In Pocket speichern vorlesen Druckansicht 19 Kommentare lesen
Ausschnitt einer Computertatstatur; anstatt Buchstaben sind auf den Tasten Flaggen diverser Länder zu sehen

(Bild: cybrain / Shutterstock.com)

Lesezeit: 4 Min.

Google kann mehr Sprachen automatisiert übersetzen. Der Übersetzungsdienst Google Translate wird von 133 auf 243 Sprachen annähernd verdoppelt, zu Beginn für die Ausgangssprachen. Das hat der Datenkonzern am Donnerstag bekanntgegeben. Die Bandbreite reicht von Sprachen mit sehr vielen Sprechern, wie Kantonesisch oder Punjabi (in der Variante der Shahmukhi-Schrift) bis zu weniger verbreiteten Dialekten wie Südniederfränkisch oder dem in Südbrasilien genutzten Riograndenser Hunsrückisch.

"Wir verwenden jetzt Künstliche Intelligenz, um die Auswahl unterstützter Sprachen zu erweitern", schreibt Googler Isaac Caswell im Firmenblog. "Dank unseres Large Language Model PaLM2 führen wir bei Google Translate 110 neue Sprachen ein, unsere bislang größte Erweiterung." Erst voriges Jahr hat Google Translate seinen Sprachschatz um 33 Sprachen erweitert, nämlich auf damals 131 plus der traditionellen wie der vereinfachten Variante der chinesischen Schriftsprache. Diesmal kommt separat Kantonesisch hinzu. Dieses sei besonders schwierig zu trainieren gewesen, berichtet Caswell, "weil Kantonesisch sich schriftlich oft mit Mandarin überschneidet". Das macht es nicht einfach, automatisiert kantonesische Texte zu finden und dem Large Language Model (LLM) einzuverleiben.

Das seit Jahrhunderten auch in Deutschland und Österreich gesprochene Romanes stellte die Programmierer ebenfalls vor eine Herausforderung, da es quer durch Europa in zahlreichen Dialekten verbreitet ist. Herausgekommen ist ein LLM, das eine so nicht gesprochene Mischung ausgibt: Es beruht auf Süd-Vlax, enthält aber auch Elemente des Nordzweigs und der Balkanzweige.

Ein Viertel der neuen Sprachen ist afrikanischen Ursprungs. Für Portugiesisch gibt es nun eine separate Variante, die nur von einer Minderheit aller Lusofonen gesprochen wird: Die in Portugal verbreitete Sprachversion. Enthalten sind auch mehrere Kreolsprachen, etwa aus Jamaika, Mauritius, Papua-Neuguinea und den Seychellen. Politisch brisante Neuankömmlinge sind beispielsweise Tibetanisch, Ossetisch oder die Sprache der Krimtataren. Google hat eine Liste der neu unterstützen Sprachen veröffentlicht.

In den User Interfaces lassen sich die neuen Angebote noch nicht auswählen. Damit sind zwar Übersetzungen aus den neuen Sprachen möglich, aber noch nicht in die neuen Sprachen. Auch Offline-Übersetzungspakete sind in der App noch nicht auffindbar. Wie Google das Interface bei so vielen Sprachen designen wird, bleibt abzuwarten. Das Unternehmen hat sich als Ziel gesetzt, eines Tages 1.000 Sprachen automatisiert in einander zu übersetzen. Damit würde es etwa jede siebte Sprache unterstützen.

Zwar sterben laufend Sprachen aus, doch gibt es immer noch über 7.000. Die genaue Abgrenzung zwischen einer Sprache und einem Dialekt ist allerdings schwierig und häufig (politisch) umfehdet. In Deutschland vom Aussterben besonders bedroht sind Jiddisch, Nordfriesisch, Romanes, Saterländisch, Sorbisch und Südjütisch.

Endlich erfüllt hat Google nach eigenen Angaben die jahrelange Forderung der Färoer, von Google Translate unterstützt zu werden. Aber so richtig funktioniert die Sprachen-Erkennung in der Praxis noch nicht. Den färöischen Satz "Mær gongst væl, takk, og tygum?" ("Mir geht es gut, danke, und Ihnen?") misinterpetiert Google Translate zur Stunde als Isländisch. Das Resultat ist diese dadaistische Übelsetzung: "Ich werde bitte jammern und lass uns kauen?".

Merkwürdiges ergibt sich, wenn man Google Translate fälschlich oder irrtümlich eine falsche Ausgangssprache mitteilt. Denn Mut zur Lücke, etwa in Form einer "nix verstehen"-Fehlermeldung, hat Google seiner KI noch nicht beigebracht. Soll "Mær gongst væl, takk, og tygum?" aus dem "Deutschen" ins Englische übertragen werden, lautet die Ausgabe: "We're counting, right, and wondering?" Umgekehrt halluziniert das System bei der fälschlichen Angabe Englisch diese deutsche Überraschung herbei: "Was wird aus dir, deinem Vater und deinem Sohn werden?"

(ds)