Facebook veröffentlicht Many-to-Many multilingualen Übersetzer als Open Source

M2M-100 ist ein Übersetzer von Facebook, der nicht als Zwischenstopp auf Englisch zurückgreift. Der Code ist auf Github verfügbar.

In Pocket speichern vorlesen Druckansicht 7 Kommentare lesen

(Bild: Facebooks Blogbeitrag)

Lesezeit: 2 Min.

Facebook veröffentlicht eine Übersetzungsfunktion, die sie als "Many-to-Many multilingual machine translation" (MMT)-Model bezeichnen. Während die meisten Übersetzer quasi als Zwischenstopp auf englische Daten zurückgreifen, bleibt bei M2M-100 dieser Schritt aus. Es wird also von etwa Chinesisch direkt ins Französische übersetzt.

Laut Facebook sind die meisten Trainingsdaten in englischer Sprache verfügbar, weshalb bisherige Modelle von etwa Chinesisch nach Englisch und von dort in eine andere Sprache übersetzen. Was entsprechend für eine zusätzliche Fehlerquelle sorgt. Das neue Model kann mit 100 Sprachen umgehen – in alle Richtungen. Gerade für das soziale Netzwerk sei dies wichtig, da im Newsfeed Beiträge automatisch in die Sprache umgewandelt werden, die der Nutzer eingestellt hat. Zwei-Drittel der Kontoinhaber seien nicht-englisch-sprachig.

Auf der Bewertungsskala für maschinell übersetzte Texte, BLEU, schnitt M2M-100 laut eines Facebook-Blogbeitrags ebenso gut wie einfache bilinguale Modelle und sogar besser als die englisch-zentrierten Modelle ab. 7,5 Milliarden Sätze in den 100 Sprachen sind dafür eingeflossen, 15 Milliarden Parameter kommen zum Einsatz. Die Masse an Daten, die einfließen muss, um die direkten Übersetzungswege zu ermöglichen, sei eine der großen Schwierigkeiten gewesen. Benötigte Trainingsdaten wuchsen zum Quadrat: "Wenn wir zehn Millionen Satzpaare in jede Richtung brauchen, bedarf es einer Milliarde Satzpaare für 10 Sprachen und 100 Milliarden für 100 Sprachen."Die Daten stammen unter anderem aus den bestehenden Sammlungen ccAligned, ccMatrix und Laser, wobei Facebook als Teil seiner Arbeit daraus Laser 2.0 aufgebaut hat.

Der Code ist auf Github verfügbar. Facebook erklärt – für das Unternehmen – ungewöhnlich viel zu den Vorgehensweisen bei der Entwicklung.

Die 100 Sprachen wurden ausgewählt nach Nutzung, also Menschen, die sie sprechen, Verfügbarkeiten von Daten und Kombinationen. "Statistisch gesehen seltene Übersetzungen haben wir umgangen, etwa von isländisch zu nepalesisch."

(emw)