Interaktive KI entziffert antike Inschriften

Ein tiefes, neuronales Netz kann beschädigte und unvollständige antike Inschriften rekonstruieren.

In Pocket speichern vorlesen Druckansicht 9 Kommentare lesen

Restoration of a damaged inscription, recording a decree from 485/4 BCE concerning the Acropolis of Athens (IG I3 4B, CC BY-SA 3.0, WikiMedia).

Lesezeit: 3 Min.

Wissenschaftler der Google-Tochter Deepmind haben gemeinsam mit Kollegen der Universitäten Athen und Oxford ein KI-Tool namens Ithaca entwickelt, das antike altgriechische Inschriften rekonstruieren und Hypothesen über Alter und Ursprung der Inschriften liefern kann.

Die Erforschung von Texten, die nicht auf Papier, Papyrus oder Pergament geschrieben worden sind – die so genannte Epigraphik – hat zunehmend an Bedeutung gewonnen. Denn die in der antiken Welt üblichen Bau-, Grab, Ehren- oder Weihinschriften liefern oft zusätzliche Detailinformationen, die von antiken Schriftstellern als unwichtig erachtet wurden. Allerdings sind von diesen Inschriften oftmals nur Bruchstücke vorhanden. Ihre Rekonstruktion erfordert viel Zeit, Aufwand und Spezialwissen.

Yannis Assael von Deepmind und Kollegen haben mit Ithaka nun ein quelloffenes Tool entwickelt, das die Erforschung altgriechischer Inschriften erheblich erleichtern dürfte. In einem interaktiven Interface können Forschende direkt den zu rekonstruierenden Text eingeben – wobei sie Leerstellen beziehungsweise fehlende Buchstaben markieren. Das Tool liefert ihnen dann die 20 wahrscheinlichsten Hypothesen zur Rekonstruktion des Textes inklusive Hypothesen über Herkunftsort und Ursprungszeit der Inschrift. (Hier ein Beispiel.)

Technische Einzelheiten beschrieben die Forschenden in einem Paper im Journal Nature. Der Kern von Ithaka ist ein spezielles, tiefes, neuronales Netz in der "Transformer"-Architektur. Solche Netze enthalten einen Mechanismus, der nicht nur die Worte eines Eingabetextes, sondern auch die Position der Wörter in dem Text berücksichtigt und den Text damit in eine hochdimensionale Repräsentation umwandelt. Ein entsprechend trainierter Dekodierer kann daraus wieder Text generieren – entweder in einer anderen Sprache oder Text, der strukturell zum Eingangstext passt, ihn also sinngemäß ergänzt. Eines der bekanntesten Beispiele für solch einen Transformer dürfte das Sprachmodell GPT-3 von Open AI sein, das auf diese Weise mittlerweile auch Programmcode erstellt.

Um Ithaca zu trainieren, verwendeten von Assael und Kollegen den Datensatz Searchable Greek Inscriptions des Packard Humanities Institute in Santa Clarita, Kalifornien. Die Sammlung enthält knapp 180.000 transkribierte Inschriften, die bereits wissenschaftlich bearbeitet wurden. Allerdings, schreiben die Autoren in dem Paper, erforderte dieser Prozess zunächst eine Konsolidierung der Daten, denn "das PHI listet insgesamt 84 antike Regionen auf, während die chronologischen Informationen in einer Vielzahl von Formaten notiert sind". Diese reichten von historischen Epochen bis hin zu präzisen Jahresintervallen und seien in mehreren Sprachen geschrieben. Sie weisen zudem keine standardisierte Notation auf und verwenden oft unscharfe Formulierungen.

Um die Leistungsfähigkeit ihrer Methode zu demonstrieren, ließen die Forschenden menschliche Experten gegen die Software antreten, wobei sie wissenschaftlich bereits bearbeitete Texte verwendeten, in denen sie einzelne Buchstaben löschten. Während die menschlichen Experten bei der Rekonstruktion der fehlenden Zeichen im Schnitt bei 25 Prozent der Zeichen richtig lagen, kam Ithaca auf immerhin 62 Prozent. Am besten schnitt jedoch eine Kombination von Mensch und Maschine ab, die gemeinsam auf 72 Prozent Genauigkeit kamen.

(wst)