Die Babel-Maschine in Brüssel

Traditionelle maschinelle Übersetzungssysteme wie das der EU analysieren Texte nach linguistischen Regeln. Die Zukunft liegt jedoch wahrscheinlich in der Kombination mit einem lernfähigen, statistisch arbeitenden System

In Pocket speichern vorlesen Druckansicht
Lesezeit: 6 Min.
Von
  • Dorothee Wiegand
Inhaltsverzeichnis

Internationale Verständigung ist ein mühsames Geschäft: Der Europäischen Union war sie bereits vor der Erweiterung um zehn neue Staaten 2,55 Euro pro Jahr und EU-Bürger wert. Die Generaldirektion Übersetzung (Directorate General for Translations, kurz DGT) der Europäischen Union, der größte Übersetzungsdienst der Welt, beschäftigt rund 1800 Mitarbeiter, das sind acht Prozent des gesamten Personals der EU. Bereits 2003, also noch vor der EU-Erweiterung, produzierte der Dienst 1 416 817 Seiten Text. Die Osterweiterung hat die Aufgabe der DGT nicht eben leichter gemacht, denn die Zahl der offiziellen Amtssprachen ist von 11 auf 20 angewachsen. Gab es für Gesetzestexte und andere wichtige Dokumente bisher 110 mögliche Übersetzungskombinationen, so ist diese Zahl 2004 auf 380 hochgeschnellt.

Einen guten Teil dieser Übersetzungsarbeit leisten Computer. Bereits 1976 erwarb die damalige Europäische Gemeinschaft, die durch den Beitritt von Dänemark, Irland und Großbritannien gerade auf neun Mitglieder angewachsen war, für 300 000 Dollar die Nutzungsrechte an der Übersetzungssoftware Systran und entwickelte diese zu einer speziellen Version namens "EC Systran" weiter. Heute liefert der Software-Dinosaurier Übersetzungen für 26 Sprachpaare, acht der Einzelsysteme sind noch Prototypen.

Doch auch nach Jahrzehnten intensiver Forschung kämpft die maschinelle Übersetzung mit vielen Problemen. Benötigt man einen perfekten Text in der Zielsprache, so eignet sich das Ergebnis einer maschinellen Übersetzung bestenfalls als gute Grundlage für die Nachbearbeitung durch einen Menschen – schlimmstenfalls sind die Bezüge innerhalb eines Satzes völlig durcheinander geraten. Dennoch steigt die Nachfrage nach automatischer Übersetzung stetig an, so verzeichnet etwa die Suchmaschine Google eine immense Nachfrage bei ihrem Übersetzungsdienst. Der Klick auf "Diese Seite übersetzen" liefert zwar holperige Sätze und oft genug echte Stilblüten, reicht aber trotzdem für ein grobes Verständnis der Inhalte häufig aus.

Systran ist ein so genanntes regelbasiertes System. Ganz grob gliedert sich seine Arbeit in vier Schritte. Auf die Vorbereitung des Quelltextes (Preprocessing) folgt die eigentliche Analyse, dann der Transfer in die Zielsprache und schließlich die Synthese. Im ersten Schritt wird der Text in ein einheitliches Format konvertiert und unter anderem auf bestimmte Häufigkeitswörter durchsucht. In der Analysephase versucht die Software beispielsweise anhand von Satzzeichen, Konjunktionen und Relativpronomen, Sätze in Teilsätze zu gliedern und bestimmt in jedem Teilsatz zunächst das Prädikat - die Satzaussage, im Deutschen ist dies meist ein Verb - und dann das Subjekt. Schritt drei, der Transfer, umfasst die Übertragung von Wortgruppen oder einzelnen Wörtern in die Zielsprache. Dazu dienen interne Lexika. Bei der abschließenden Synthese bringt die Software diese Einzelteile -– beispielsweise durch Flexion –- in die korrekte grammatische Form und baut sie zu vollständigen Sätzen der Zielsprache zusammen.