Was morgen in der Zeitung steht

Ein amerikanisch-israelisches Forschungsteam hat eine Software entwickelt, die aus Medienberichten erstaunlich gute Prognosen über künftige Epidemien und andere Ereignisse erstellen kann.

In Pocket speichern vorlesen Druckansicht 3 Kommentare lesen
Lesezeit: 4 Min.
Von
  • Tom Simonite

Ein amerikanisch-israelisches Forschungsteam hat eine Software entwickelt, die aus Medienberichten erstaunlich gute Prognosen über künftige Epidemien und andere Ereignisse erstellen kann.

Wer wüsste nicht heute schon gerne, was morgen in der Zeitung steht? Da ließen sich treffliche Wetten abschließen. Ein amerikanisch-israelisches Forschungsteam hat gemeinsam einen Software entwickelt, die genau das leisten soll – allerdings mit einer ernsthafteren Motivation. Sie soll anhand der Schlagzeilen von heute etwa Ausbrüche von Infektionskrankheiten prognostizieren. Als Datenbasis verwendeten die Ingenieure unter anderem Tausende Ausgaben der "New York Times".

Das System könnte eines Tages Hilfsorganisationen unterstützen, „proaktiv“ für katastrophale Ereignisse zu planen, sagt Eric Horvitz von Microsoft Research. „Es ist ein Vorgeschmack auf künftige Entwicklungen.“ Horvitz hat in dem Projekt mit der Informatikerin Kira Radinsky am Technion Israel Institute of Technology zusammengearbeitet.

Bei Tests an historischen Daten lieferte die Software erstaunliche Ergebnisse. So fütterten Horvitz und Radinsky beispielsweise Berichte über eine Dürre in Angola im Jahr 2006 in das System. Das warnte daraufhin vor einem Cholera-Ausbruch, weil ältere Daten eine Verknüpfung von Dürren und Cholera nahelegten. Dasselbe Ergebnis lieferten Berichte über große Stürme in Afrika Anfang 2007. Weniger als eine Woche später meldeten die Medien damals Ausbrüche von Cholera. Bei anderen Testläufen hinsichtlich Epidemien, Gewaltausbrüchen und Opferzahlen prognostizierten die Warnungen den tatsächlichen Eintritt der Ereignisse mit einer zeitlichen Genauigkeit von 70 bis 90 Prozent.

Laut Horvitz funktioniere das System bereits so gut, dass eine verbesserte Version zur Prognose von künftigen Ereignissen eingesetzt werden könnte. Sie könnte dann etwa staatlichen Hilfsorganisationen in ihren Planungen für humanitäre Aktionen helfen. „Wir planen bereits, mit einigen von ihnen eine Folgeversion zu entwickeln“, sagt Horvitz.

Neben den Daten aus 22 Jahrgängen der New York Times – von 1986 bis 2007 – nutzen die Forscher auch Daten aus dem Web. „Als eine nützliche Quelle hat sich Dbpedia erwiesen“, sagt Radinsky. In Dbpedia liegen Wikipedia-Daten in einer strukturierten Form vor. Weitere Quellen sind WordNet, eine Software für semantische Spracherkennung, und OpenCyc, eine Datenbank, in der allgemeines Wissen über die Welt strukturiert abgelegt ist.

Diese Informationen liefern den wichtigen Kontext, der sich aus Nachrichten-Artikeln selbst noch nicht ergibt. „Wir können in Nachrichten-Artikeln Orte identifizieren, die Einkommen der Menschen dort sowie Informationen über die politische Lage“, sagt Radinsky. Erst mit dem Kontext aus den anderen Quellen wird es aber möglich, Regeln aufzustellen, welche Ereignisse üblicherweise aufeinander folgen. Das System könnte beispielsweise Ereignisse in angolanischen und ruandischen Städten aufeinander beziehen. Ihre Gemeinsamkeiten: Sie liegen in Afrika und haben ein ähnliches Bruttoinlandsprodukt, eine ähnliche Bevölkerungsdichte sowie eine vergleichbare Fläche von Gewässern. Auf diese Weise kam das System zu seinen rückwirkenden Cholera-Prognosen.

Horvitz und Radinsky sind indes nicht die ersten, die in dieser Richtung arbeiten. Auch das Start-up Recorded Future analysiert Online-Quellen, Unternehmensberichte und Geheimdienst-Datenbanken, um Prognosen aufzustellen. Das neue System nutze aber mehr Quellen – über 90 insgesamt – als die konkurrierenden Technologien, betonen die Forscher.

Horvitz und Radinsky hätten „gute Arbeit“ geleistet, lobt Christopher Ahlberg, CEO von Recorded Future. Bis aus dem Prototyp ein Produkt werde, seien aber noch einige Verbesserungen nötig. Microsoft plant derzeit allerdings nicht, die neue Software auf den Markt zu bringen. Das Projekt werde aber weiterlaufen und mehr Zeitungsarchive und digitalisierte Bücher in die Datenbasis einbauen, sagt Horvitz. Während sich die Welt in den letzten Jahrzehnten deutlich gewandelt habe, seien die menschliche Natur und Umweltzusammenhänge gleich geblieben. Deshalb könnte die Software Muster auch aus sehr alten Daten herausziehen. „Ich finde es persönlich interessant, die Datenbestände in die Vergangenheit zu erweitern.“

Das Paper:
K. Radinsky and E. Horvitz: "Mining the Web to Predict Future Events", WSDM 2013, Rom, Februar 2013. (nbo)