Warum Menschen (noch) die besseren Übersetzer sind

Übersetzen Maschinen Texte ebenso gut in eine andere Sprache wie menschliche Experten? Dieser Punkt ist schon erreicht – aber nur, wenn man den Text-Zusammenhang außer Acht lässt.

2

(Bild: Google)

25.09.2018, 06:00 Uhr

Lesezeit: 4 Min.

MIT Technology Review

Von

Sascha Mattke

Sie haben vielleicht nicht die Champagner-Korken knallen hören und die Konfetti-Paraden nicht mitbekommen, aber seit kurzem behaupten Computer-Linguisten, dass neuronale Maschinen-Übersetzungen nicht weniger gute Texte liefern als menschliche Übersetzer. Für Aufsehen in der Szene sorgten in diesem Sommer Forscher von Microsoft Research, die berichteten, mit ihrem System in der Sprachrichtung Chinesisch-Englisch wirklich „human parity“, also den Gleichstand mit Menschen, erreicht zu haben.

Lesen Sie dazu auch:

Noch lange nicht ausgelernt

Babelfish im Ohr

Warum 500 Millionen Menschen in China mit dieser KI sprechen

"Google kann uns nicht überholen"

Tatsächlich haben neuronale Netze für die Übertragung von Texten von der einen in eine andere Sprache in den vergangenen Jahren erhebliche Fortschritte gemacht. Insofern könnte man sagen, dass die Meldung vom erreichten Gleichstand keine große Überraschung war. Forscher um Samuel Läubli von der Universität Zürich haben die Qualität von menschlichen und maschinellen Übersetzungen jetzt jedoch mit anderen Kriterien verglichen. Und ihr (für Menschen) beruhigendes Ergebnis lautet: Die Übersetzungen von menschlichen Profis sind immer noch besser als die von Computern.

Satzweise und am Stück

Woher kommt diese Diskrepanz? Zur Bewertung von Übersetzungen werden zwei Aspekte herangezogen: Angemessenheit, also die Übereinstimmung mit dem Quelltext, und Flüssigkeit, also die Frage, wie natürlich ein übersetzter Text in der Zielsprache klingt. Diese Vorgehensweise ist nicht weiter umstritten. Eine Schwäche sehen die Schweizer Forscher aber in der bislang üblichen Praxis, menschliche und maschinelle Texte nicht am Stück, sondern in Form von einzeln präsentierten Sätzen zu vergleichen.

In ihrer Studie haben sie deshalb sozusagen die Ebene gewechselt und menschliche Experten gebeten (und dafür bezahlt), Angemessenheit und Flüssigkeit von übersetzten Nachrichten-Texten sowohl satzweise als auch am Stück zu bewerten. Bei der satzweisen Analyse konnten die Forscher bestätigen, dass zwischen Computern und Menschen kein statistisch signifikanter Qualitätsunterschied mehr besteht. Bei den ganzen Texten aber wurde von Menschen angefertigten Übersetzungen immer noch häufiger der Vorzug gegeben.

Ein besonderes Problem scheinen die Maschinen-Übersetzer demnach mit Kohärenz zu haben. Als Beispiel nennen Läubli und Kollegen den Namen einer App, der in einem chinesischen Text dreimal vorkam und von Menschen jeweils gleich, vom Computer aber in drei verschiedenen Varianten übersetzt wurde. Beim Vergleich nur von Einzel-Sätzen würde diese Schwäche nicht auffallen, in einem kompletten Dokument aber stört sie erheblich.

Maschinen müssen konsistenter werden

Dass Software für Übersetzungen bislang nur satzweise vorgeht, ist alles andere als Zufall. „Bei einzelnen Sätzen errechnet sich die Zahl der möglichen Kombinationen aus der Zahl der Wörter in der jeweiligen Sprache hoch der Satzlänge. Bei einem Satz sind das vielleicht Millionen oder auch wenige Milliarden Möglichkeiten. Bei einem ganzen Dokument kommt man in Dimensionen, die mit heutigen Computern nicht mehr lösbar sind“, erklärt Läubli.

Auf der anderen Seite sieht Läubli bei der Entwicklung von kohärenteren Maschinen-Übersetzungen auch zu wenig Ehrgeiz. „Zumindest die ersten 80 Prozent dieses Problems, etwa Eigennamen ließen sich wie üblich relativ leicht lösen. Aber es macht halt kaum jemand“, sagt er. Bislang habe es auch keinen Anreiz dazu gegeben, eben weil die verbreiteten Verfahren zur Bewertung den Gesamt-Zusammenhang außer Acht lassen.

Hoffnungen in der Vergangenheit enttäuscht

Das sollte sich nach der Ansicht Läublis und seiner Kollegen dringend ändern. In ihrem Fachaufsatz schreiben sie von einem „Versagen“ bei den Best-Practices zu Evaluierung von Übersetzungen. „Es könnte Zeit sein, zu einer Evaluierung auf Dokumenten-Ebene überzugehen“, erklären sie.

Erst dann würden sich wahrscheinlich auch die Entwickler von Maschinen-Übersetzern stärker um den Kontext kümmern, sodass sie irgendwann auch in der Gesamtschau mit Menschen gleichziehen oder sie sogar übertreffen könnte.

Das allerdings dürfte laut Läubli noch deutlich länger auf sich warten lassen: „Ich bin hier vorsichtig, weil in der Vergangenheit schon viele Hoffnungen enttäuscht wurden. Bei reinen Gebrauchstexten könnten Computer schon in 5, 10 oder 15 Jahren das Niveau von menschlichen Übersetzern erreichen, Aber ich glaube, echte Parität zwischen Maschinen und Menschen bei allen Arten von Texten einschließlich Literatur wird es in den nächsten 20 Jahren noch nicht geben.“

(sma)