Die Babel-Maschine in Brüssel

21.06.2005 04:02 Uhr Dorothee Wiegand

Traditionelle maschinelle Übersetzungssysteme wie das der EU analysieren Texte nach linguistischen Regeln. Die Zukunft liegt jedoch wahrscheinlich in der Kombination mit einem lernfähigen, statistisch arbeitenden System

Internationale Verständigung ist ein mühsames Geschäft: Der Europäischen Union war sie bereits vor der Erweiterung um zehn neue Staaten 2,55 Euro pro Jahr und EU-Bürger wert. Die Generaldirektion Übersetzung (Directorate General for Translations, kurz DGT) der Europäischen Union, der größte Übersetzungsdienst der Welt, beschäftigt rund 1800 Mitarbeiter, das sind acht Prozent des gesamten Personals der EU. Bereits 2003, also noch vor der EU-Erweiterung, produzierte der Dienst 1 416 817 Seiten Text. Die Osterweiterung hat die Aufgabe der DGT nicht eben leichter gemacht, denn die Zahl der offiziellen Amtssprachen ist von 11 auf 20 angewachsen. Gab es für Gesetzestexte und andere wichtige Dokumente bisher 110 mögliche Übersetzungskombinationen, so ist diese Zahl 2004 auf 380 hochgeschnellt.

Einen guten Teil dieser Übersetzungsarbeit leisten Computer. Bereits 1976 erwarb die damalige Europäische Gemeinschaft, die durch den Beitritt von Dänemark, Irland und Großbritannien gerade auf neun Mitglieder angewachsen war, für 300 000 Dollar die Nutzungsrechte an der Übersetzungssoftware Systran und entwickelte diese zu einer speziellen Version namens "EC Systran" weiter. Heute liefert der Software-Dinosaurier Übersetzungen für 26 Sprachpaare, acht der Einzelsysteme sind noch Prototypen.

Doch auch nach Jahrzehnten intensiver Forschung kämpft die maschinelle Übersetzung mit vielen Problemen. Benötigt man einen perfekten Text in der Zielsprache, so eignet sich das Ergebnis einer maschinellen Übersetzung bestenfalls als gute Grundlage für die Nachbearbeitung durch einen Menschen – schlimmstenfalls sind die Bezüge innerhalb eines Satzes völlig durcheinander geraten. Dennoch steigt die Nachfrage nach automatischer Übersetzung stetig an, so verzeichnet etwa die Suchmaschine Google eine immense Nachfrage bei ihrem Übersetzungsdienst. Der Klick auf "Diese Seite übersetzen" liefert zwar holperige Sätze und oft genug echte Stilblüten, reicht aber trotzdem für ein grobes Verständnis der Inhalte häufig aus.

Systran ist ein so genanntes regelbasiertes System. Ganz grob gliedert sich seine Arbeit in vier Schritte. Auf die Vorbereitung des Quelltextes (Preprocessing) folgt die eigentliche Analyse, dann der Transfer in die Zielsprache und schließlich die Synthese. Im ersten Schritt wird der Text in ein einheitliches Format konvertiert und unter anderem auf bestimmte Häufigkeitswörter durchsucht. In der Analysephase versucht die Software beispielsweise anhand von Satzzeichen, Konjunktionen und Relativpronomen, Sätze in Teilsätze zu gliedern und bestimmt in jedem Teilsatz zunächst das Prädikat - die Satzaussage, im Deutschen ist dies meist ein Verb - und dann das Subjekt. Schritt drei, der Transfer, umfasst die Übertragung von Wortgruppen oder einzelnen Wörtern in die Zielsprache. Dazu dienen interne Lexika. Bei der abschließenden Synthese bringt die Software diese Einzelteile -– beispielsweise durch Flexion –- in die korrekte grammatische Form und baut sie zu vollständigen Sätzen der Zielsprache zusammen.

Die Babel-Maschine in Brüssel

Das Grundprinzip des regelbasierten Ansatzes ist Abstraktion: Wörter werden in Kategorien eingeteilt. Dieses Verfahren birgt immer die Gefahr eines Fehlers, denn linguistische Regeln sind nicht nur sehr komplex, sondern auch fehlerbehaftet: Die Alltagssprache kennt Wortarten, die es in traditionellen Grammatiken gar nicht gibt. Zudem findet der Kontext nicht genügend Beachtung - ob der Satz "Die Bank ist schön" in einer Architekturzeitschrift steht oder eine Rentnerin damit ihren Lieblingsplatz im Park beschreibt, ist für die Übersetzung von entscheidender Bedeutung, wird aber von regelbasierten Systemen nicht genügend berücksichtigt.

Hier liegt die Stärke der statistischen Sprachverarbeitung, die ursprünglich bei der Entwicklung von Programmen zur Spracherkennung entstand. Harte Ja/Nein-Entscheidungen erwiesen sich dabei als wenig sinnvoll. Stattdessen prüfen Erkennungssysteme mehrere konkurrierende Zwischenergebnisse auf ihre Wahrscheinlichkeit. Bei IBM kam es zu einem regelrechten internen Wettstreit dieser beiden Ansätze, als Forschergruppen zeitgleich an der Entwicklung einer regelbasierten Software und einem statistischen System arbeiteten. Die regelbasierte Software kommt heute unter dem Namen "Personal Translator" beziehungsweise "translate" zum Einsatz.

Lernfähige, statistisch arbeitende Systeme werden vor dem Einsatz mit umfangreichem Sprachmaterial, den so genannten Korpora, trainiert. Sie bestehen aus -– von menschlichen Übersetzern erstellten - Sprachbeispielen in einer Quell- und einer Zielsprache. Ein statistisches System analysiert das Material und verfeinert so seine Wahrscheinlichkeitswerte, die in der Summe als Sprachmodell bezeichnet werden.

Die IBM-Forscher fütterten ihr Programm mit 40 000 Satzpaaren in Englisch und Französisch. Sie konnten auf Sitzungsprotokolle und Gesetzentwürfe des kanadischen Parlaments zurückgreifen, die sich als idealer Trainingsstoff erwiesen: Die umfangreichen amtlichen Texte verwendeten ein bestimmtes, wiederkehrendes Vokabular und waren in einem einheitlichen Sprachstil abgefasst. Das Übersetzungssystem zeigte eine steile Lernkurve -– die allerdings plötzlich abflachte.

Betrachtet man die Zahl der wissenschaftlichen Arbeiten oder Konferenzbeiträge zum Thema, so zeigt sich ein stetig wachsendes Interesse an statistischen Verfahren. Zudem hat die Statistik die Nase vorn, wenn sehr schnell ein arbeitsfähiges System benötigt wird, wie beispielsweise beim amerikanischen Militär, das sich heute für Afghanisch und morgen für Arabisch interessiert. Bis heute beherrschen jedoch ausschließlich regelbasierte Systeme den Markt. Experten schätzen, dass es noch Jahre dauern wird, bevor rein statistische Übersetzungssysteme allgemein einsetzbar sind.

Die Babel-Maschine in Brüssel

Trotz heftiger Glaubenskriege bewegen sich die beiden Richtungen technisch längst aufeinander zu. So versuchen Statistiker, ihre Sprachmodelle durch Abstraktionen zu verbessern und arbeiten mittlerweile ebenfalls mit Wortarten, um das Problem seltener Wörter in den Griff zu bekommen. Die Kollegen aus dem regelbasierten Lager experimentieren damit, Regeln in Abhängigkeit von Wahrscheinlichkeiten einzusetzen. Wie das perfekte Übersetzungssystem der Zukunft aussehen könnte, ist jedoch nach wie vor unklar.

Menschliche Übersetzer müssen sich also vorerst keine Sorgen um ihren Arbeitsplatz machen - und Dolmetscher erst recht nicht. Denn mit Systemen zur Übersetzung gesprochener Sprache gilt es noch ganz andere Hürden zu meistern als bei der Verarbeitung von Textdokumenten: Unvollständige Sätze, Ähs und Öhs oder in Mundart gesprochener Input muss vor der Übertragung erst einmal richtig erkannt werden. Entsprechende Forschungsprojekte beschränkten sich bisher wohlweislich auf eng begrenzte Themengebiete wie das Buchen eines Hotelzimmers oder medizinische Notfälle.

(Entnommen aus Technology Review Nr. 7/2005 [1]; das Heft können Sie hier [2] bestellen (wst [3])

URL dieses Artikels:
https://www.heise.de/-277435

Links in diesem Artikel:
[1] http://www.heise.de/tr/inhalt/2005/07
[2] http://www.heise.de/abo/tr/hefte.shtml
[3] mailto:wst@technology-review.de