EU-Kommission macht weitere Sprachdaten zugänglich

Die EU-Kommission macht Sammlungen von Sätzen aus Rechtstexten über technische, politische und soziale Fragen in 22 Sprachen beispielsweise für maschinelle Übersetzungssysteme zugänglich.

vorlesen Druckansicht 15 Kommentare lesen
Lesezeit: 1 Min.

Nach der Öffnung der EU-Dokumentendatenbank EUR-Lex und der Terminologiedatenbank IATE geht die EU-Kommission einen weiteren Schritt in ihren Bemühungen um Vielsprachigkeit. Nun macht sie Sammlungen von Sätzen aus Rechtstexten über technische, politische und soziale Fragen in 22 Sprachen zugänglich. Dieser Übersetzungsspeicher DGT Multilingual Translation Memory (DGT-TM) enthält Sätze mit ihrer Entsprechung in die anderen Amtssprachen. Derzeit fehlen noch die irischen Übersetzungen.

Diese Art von Daten ist bei Entwicklern maschineller Übersetzungssysteme hoch begehrt, schreibt die Kommission in einer Mitteilung, da ihre automatischen Übersetzungsprogramme von Humanübersetzungen "lernen", wie Wörter und Sätze im Zusammenhang richtig zu übersetzen sind. Auch bei der Entwicklung anderer Sprachsoftware könnten diese Daten hilfreich sein, beispielsweise für Programme zur Grammatik- und Rechtschreibprüfung, Online-Wörterbücher und mehrsprachige Textklassifizierungssysteme.

Die EU-Organe verfügen nach eigenen Angaben über weit mehr mehrsprachige Texte als jede andere Organisation, weil die EU-Vorschriften in allen 23 Amtssprachen vorliegen müssen. Ihre Übersetzungsdienste arbeiten mit 253 möglichen Sprachkombinationen, dabei entstehen jährlich etwa 1,5 Millionen Übersetzungsseiten. Während sich Übersetzungen englischer oder französischer Texte im Internet häufig leicht finden ließen, seien Übersetzungen aus Sprachen wie Lettisch oder Rumänisch selten und für die Kombination zweier seltenerer Sprachen praktisch unauffindbar. (anw)