Geschichtsforscher werten Archive mit maschinellem Lernen aus

New Yorker Wissenschaftler können aus statistischen Daten versteckte historische Ereignisse hervorkitzeln.

In Pocket speichern vorlesen Druckansicht 9 Kommentare lesen
Geschichtsforscher werten Archive mit maschinellem Lernen aus

network / Martin Abegglen / cc-by-sa-2.0

Lesezeit: 2 Min.

Immer mehr staatliche Archive werden online gestellt – und das stellt Geschichtswissenschaftler vor die Frage, wie sie am besten auszuwerten sind. Ein Forscherteam an der New Yorker Columbia University hat nun neue statistische Verfahren entwickelt, berichtet Technology Review in seiner Online-Ausgabe ("Data Mining nach historischen Ereignissen").

Möglich wurde die Arbeit auch dadurch, dass das amerikanische Außenministerium Verschlusssachen schon seit 1973 elektronisch speichert. Viele dieser Materialien aus den Jahren 1973 bis 1977 sind mittlerweile öffentlich zugänglich und bestehen aus 1,4 Millionen freigegebenen Drahtnachrichten (diplomatic cables), die von Botschaften aus aller Welt stammen. Zudem stehen Metadaten von 400.000 Dokumenten bereit, die per US-Diplomatengepäck verschickt wurden.

Mehr Infos

Diese elektronischen Daten sind alle mit Stichwörtern (Tags) versehen, die zu ihrem Thema passen. So werden etwa Nachrichten zum Thema Südvietnam mit "VS" bezeichnet, zur UN-Hauptversammlung zugehörige Informationen mit "UNGA" und solche zu Finnland mit "FI".

Im Endergebnis ließ sich so eine Rangfolge der 30 wichtigsten Ereignisse aus US-Diplomatensicht in diesem Zeitraum erstellen. Nicht alle Kommunikationsspitzen spiegeln dabei wichtige Weltereignisse wieder. Zwei der signifikantesten davon hatten beispielsweise mit administrativen beziehungsweise Visa-Dingen zu tun, die in den Medien nicht vorkamen.

Die Studie demonstriert, was in Zukunft mit Data-Mining-Verfahren noch aus Archiven herausgeholt werden könnte. Allerdings zeigt sich auch, dass Menschen Fehler machen: Stimmen die Stichworte nicht oder fehlen Daten, sind Historiker weiterhin auf andere Recherchemethoden angewiesen.

Mehr dazu bei Technology Review Online:

(bsc)