Data Mining nach historischen Ereignissen

Informationen über geschichtlich signifikante Entwicklungen stecken oft in staatlichen Archiven, ohne dass sie Historiker leicht auffinden könnten. Statistiker haben neue Modelle entwickelt, die hier helfen sollen.

In Pocket speichern vorlesen Druckansicht
Lesezeit: 4 Min.
Von
  • TR Online
Inhaltsverzeichnis

Die Geschichtswissenschaften stehen vor einer Revolution – und Triebkraft ist der Trend, immer mehr Archivalien in digitaler Form aufzubereiten und modernen Algorithmen zur Auswertung vorzulegen.

Mehr Infos

Schnellen Zugriff auf zeitgenössische Nachrichtenartikel vieler Weltereignisse haben Forscher schon seit längerem. Doch was bislang fehlte, war ein leichter Zugang zu Archiven staatlicher Stellen, die manches Ereignis in einem ganz anderen Licht erscheinen lassen können. Oft liegen diese Informationen nur viele Jahre später der Öffentlichkeit vor – und ihre schiere Menge machte es bislang schwierig, sie adäquat auszuwerten und Wichtiges von Unwichtigem zu trennen.

Eine automatisierte Methode zur Durchsicht wäre daher äußerst praktisch. Ein Forscherteam um Yuanjun Gao von der Columbia University in New York hat nun neue statistische Methoden entwickelt, die dabei helfen sollen. Sie wurden bereits mit Daten der US-Regierung getestet, die aus den National Archives stammen und anschließend mit Nachrichtenartikeln verglichen.

Möglich wurde die Arbeit auch dadurch, dass das amerikanische Außenministerium Verschlusssachen schon seit 1973 elektronisch speichert. Viele dieser Materialien aus den Jahren 1973 bis 1977 sind mittlerweile öffentlich zugänglich und bestehen aus 1,4 Millionen freigegebenen Drahtnachrichten (diplomatic cables), die von Botschaften aus aller Welt stammen. Zudem stehen Metadaten von 400.000 Dokumenten bereit, die per Diplomatengepäck verschickt wurden.

Diese elektronischen Daten sind alle mit Stichwörtern (Tags) versehen, die zu ihrem Thema passen. So werden etwa Nachrichten zum Thema Südvietnam mit "VS" bezeichnet, zur UN-Hauptversammlung zugehörige Informationen mit "UNGA" und solche zu Finnland mit "FI".

Dies erlaubt Forschern, Nachrichten zu spezifischen Themen zu analysieren, ohne die tatsächlichen Nachrichteninhalte zu kennen. Allein die Überprüfung der Anzahl der Nachrichten auf einer Zeitleiste ergibt interessante Muster. Beispielsweise lässt sich so eine verstärkte Kommunikation zum Thema Südvietnam im April 1975 feststellen, als Saigon in die Hände Nordvietnams geriet.

Nachrichten zur UN verstärken sich in regulären Intervallen mit jeder Hauptversammlung. Dieses Muster enthält eine zusätzliche Spitze von April bis Mai 1974, als eine Sondersitzung der UN von Algerien einberufen wurde, bei der eine "neue internationale Wirtschaftsordnung" eingefordert wurde.

Kontrastieren lässt sich dies mit den Tags für Finnland zwischen 1973 und 1977. Nachrichtenspitzen oder spezielle Muster treten hier nicht auf, weil die Nation in diesem Zeitraum eine stabile Phase durchlebte.

Große Nachrichtenspitzen lassen sich visuell recht einfach erkennen. Gao und Team haben allerdings Methoden entwickelt, diese automatisch zu erfassen und nach ihrer Wichtigkeit zu sortieren. Dabei wird die Hintergrundaktivität zum jeweiligen Zeitpunkt als Vergleichsmittel herangezogen.

Im Endergebnis ließ sich so eine Rangfolge der 30 wichtigsten Ereignisse aus US-Diplomatensicht in diesem Zeitraum erstellen. Nicht alle Kommunikationsspitzen spiegeln dabei wichtige Weltereignisse wider. Zwei der signifikantesten davon hatten beispielsweise mit administrativen beziehungsweise Visa-Dingen zu tun, die in den Medien nicht vorkamen.

Andere wichtige Ereignisse sind schnell gefunden, etwa die Betonung der Menschenrechte durch die US-Regierung unter Jimmy Carter, der überraschende Besuch Israels durch den ägyptischen Präsidenten Anwar Sadat 1977, die "Boat People"-Krise in Südostasien 1975 bis 1976, der Yom-Kippur-Krieg 1973 oder der Rückzug Portugals aus Angola 1975 bis 1976.

Die Studie demonstriert, was in Zukunft mit Data-Mining-Verfahren noch aus Archiven herausgeholt werden könnte. Allerdings zeigt sich auch, dass Menschen Fehler machen: Stimmen die Stichworte nicht oder fehlen Daten, sind Historiker weiterhin auf andere Recherchemethoden angewiesen. Dennoch ist laut Gao und Team zu begrüßen, dass immer mehr Archivalien in digital lesbaren Formaten vorliegen.

()