Internet-Archäologen rekonstruieren verloren geglaubte Websites

US-Computerwissenschaftler haben eine Technik entwickelt, mit der sich fehlende Online-Inhalte aus ihrem Kontext wiederherstellen lassen.

16.10.2013, 07:30 Uhr

Lesezeit: 3 Min.

MIT Technology Review

Von

TR Online

US-Computerwissenschaftler haben eine Technik entwickelt, mit der sich fehlende Online-Inhalte aus ihrem Kontext wiederherstellen lassen.

Das Internet ist vergänglich: Insbesondere Social-Media-Inhalte verschwinden schnell – und mit ihnen womöglich wichtige Teile der jüngeren Geschichte. Das hatten IT-Forscher an der Old Dominion University in Norfolk, Virgina, bereits im letzten Jahr im Rahmen einer Studie zeigen können, bei der die Geschwindigkeit gemessen wurde, mit der auf Facebook, Twitter und Co. geteilte Links zum arabischen Frühling nicht mehr aufrufbar waren. Das erschreckende Ergebnis: Innerhalb eines Jahres gingen bis zu 11 Prozent aller Informationen, die in den entscheidenden 18 Tagen der ägyptischen Revolution geteilt wurden, verloren. Nach zwei Jahren waren sogar 27 Prozent verschwunden.

Das Forscherteam um Hany SalahEldeen und Michael Nelson hat deshalb nun ein neues Verfahren entwickelt, mit dem sich gelöschte Websites zumindest teilweise rekonstruieren lassen. Damit soll es teilweise möglich werden, die verloren gegangenen Postings anhand ihrer im Netz hinterlassenen Spuren wiederherzustellen.

SalahEldeen und Nelson begannen damit, zunächst die Ergebnisse aus ihrer älteren Studie zu verifizieren und waren überrascht, als sie merkten, dass einige der eigentlich verschwundenen Quellen plötzlich wieder verfügbar waren. "Dabei stießen wir auf ein interessantes Phänomen", schreiben sie. Wie sich herausstellte, waren einige Domains zwischenzeitlich nicht mehr aufrufbar gewesen und nun wieder zugänglich; zudem waren einzelne Archive angelegt worden. Hinzu kamen gesperrte Nutzer bei diversen Diensten, die nun plötzlich wieder online zu finden waren.

Aus dieser Erkenntnis heraus entwickelte das Old-Dominion-Team eine Software, mit der fehlendes Material aufgefunden werden kann, selbst wenn es an anderer Stelle im Netz liegt. Dabei machen sie sich die Metainformationen zunutze, die die meisten über Social-Media-Dienste geteilten Internet-Daten enthalten – von Retweets und Hashtags bei Twitter über Facebook-Statusangaben bis hin zum Blog-Kommentar.

Als Suchmaschine kam dabei unter anderem die Twitter-Erfassung Topsy zum Einsatz, die es erlaubt, die Adresse einer fehlenden Quelle einzugeben und Tweets anzuzeigen, die diese referenzieren. So bildeten die Forscher nach und nach eine Signatur. Anschließend extrahierten die Forscher die fünf häufigsten Begriffe, die mit der Signatur in Verbindung standen, und suchten dann schlicht bei Google danach. Ergebnis war eine Liste potenzieller Ersatzinhalte für ein verlorenes Dokument.

Um zu testen, wie genau der Ersatzkandidat der Originalquelle entsprach, führten SalahEldeen und Nelson den gleichen Prozess für Inhalte aus, die noch im Netz vorhanden waren – und verglichen dann die Ersatzkandidaten mit dem Original. In immerhin 40 Prozent aller Fälle enthielten die Ergebnisse eine textliche Ähnlichkeit von mindestens 70 Prozent. Das ist zwar bei weitem noch nicht perfekt, der Algorithmus der Forscher steht aber noch am Anfang. Er soll nach und nach verbessert werden. ()