Computer versteht verlorene Sprachen

Mittels künstlicher Intelligenz können Maschinen heute Texte übersetzen, ohne ihre Bedeutung zu verstehen. Mit zusätzlichen Tricks funktioniert das sogar bei Sprachen, die längst nicht mehr verwendet werden.

4

Ausgrabungsstätte.

(Bild: Norbert Nagel / Wikipedia / cc-by-sa-3.0)

11.07.2019, 05:40 Uhr

Lesezeit: 7 Min.

MIT Technology Review

Von

TR Online

Im Jahr 1886 entdeckte der britische Archäologe Arthur Evans einen alten Stein mit einer merkwürdigen Inschrift in einer unbekannten Sprache. Er stammte von der Insel Kreta. Sofort fuhr Evans dorthin, um nach weiteren Hinweisen zu suchen. Bald fand er viele Steine und Tafeln mit ähnlichen Schriften, die er auf rund 1400 v. Chr. datierte.

Damit handelte es sich mit um die ältesten Formen von Schrift, die je gefunden wurden. Für Evans ergab sich ihre lineare Form aus grob eingekratzten Strich-Bildern als frühe Form von Kunst, was deren Bedeutung in der Geschichte der Linguistik begründete.

Später fanden Evans und andere heraus, dass die Steine und Tafeln in zwei unterschiedlichen Schriften beschrieben waren. Die älteste, genannt Linearschrift A, stammte aus der Zeit zwischen 1800 und 1400 v. Chr., als die Insel von der minoischen Zivilisation der Bronzezeit beherrscht wurde. Die zweite Schrift, Linearschrift B, ist etwas neuer und erschien erst 1400 v. Chr., als die Insel von Mykänen vom griechischen Festland erobert wurde.

Enorme Leistung

Viele Jahre lang versuchten Evans und andere Forscher, die alten Schriften zu entziffern, doch die verlorenen Sprachen widersetzten sich ihren Bemühungen. Bis 1953 blieb das Problem ungelöst, dann knackte der Amateurlinguist Michael Ventris den Code für Linearschrift B.

Seine Lösung basierte auf zwei wichtigen Durchbrüchen. Erstens nahm Ventris an, dass es sich bei vielen der wiederholten Worte im Vokabular von Linearschrift B um Orte auf der Insel Kreta handelte, was sich als korrekt erwies.

Zweitens arbeitete er mit der Hypothese, dass die Schrift eine frühe Form von Altgriechisch wiedergab. Dadurch konnte er rasch auch den Rest der Schrift entschlüsseln. Und damit zeigte er, dass Altgriechisch viele Jahrhunderte früher zum ersten Mal schriftlich aufgetaucht war als bis dahin vermutet. Die Arbeit von Ventris war eine enorme Leistung. Doch die noch ältere Schrift Linearschrift A ist bis heute eines der großen ungelösten Probleme in der Linguistik.

Linguistik revolutioniert

Dass die aktuellen Fortschritte bei Maschinen-Übersetzungen hier helfen könnten, kann man sich leicht vorstellen. Innerhalb weniger Jahre wurde das Feld der Linguistik schließlich revolutioniert durch die Verfügbarkeit von riesigen annotierten Datenbanken und Techniken, wie Maschinen daraus lernen können. Maschinelle Übersetzungen von einer Sprache in eine andere sind damit fast schon Routine geworden. Diese Methoden sind zwar nicht perfekt, doch sie haben eine vollkommen neue Möglichkeit gebracht, über Sprache nachzudenken.

Gebrauch davon machen unter anderem Jiaming Luo und Regina Barzilay vom MIT und Yuan Calo vom KI-Labor von Google in Kalifornien. Zusammen haben die Forscher ein Maschinenlern-System entwickelt, das in der Lage sein soll, verlorene Sprachen zu entziffern. Und sie haben es genutzt, um Linearschrift B zu verstehen – das erste Mal, dass dies automatisch geschah. Der Ansatz, den sie dabei nutzten, unterschied sich aber sehr von dem bei normalen Maschinen-Übersetzungen.

Weitere Texte zum Thema Linguistik:

Dazu etwas Hintergrund. Die große Idee bei Maschinen-Übersetzungen ist, dass Worte unabhängig von der jeweiligen Sprache auf bestimmte Weise in Zusammenhang miteinander stehen. Also werden diese Zusammenhänge zunächst für eine einzelne Sprache kartiert. Dazu braucht man eine riesige Text-Datenbank. Eine Maschine durchsucht diesen Text, um zu erfassen, wie häufig die unterschiedliche Worte neben allen anderen erscheinen. Dieses Häufigkeitsmuster ist eine eindeutige Signatur, die das Wort in einem mehrdimensionalen Parameter-Raum definiert. Man kann es sich wie einen Vektor in diesem Raum vorstellen. Und dieser Vektor schränkt relativ genau ein, wie das jeweilige Wort in einer Maschinen-Übersetzung interpretiert wird.