Social-Media-Inhalte wiederhergestellt
US-Computerwissenschaftler haben eine Technik entwickelt, mit der sich fehlende Online-Inhalte aus ihrem Kontext rekonstruieren lassen.
Ein Forscherteam um Hany SalahEldeen und Michael Nelson an der Old Dominion University in Norfolk, Virgina, hat ein neues Verfahren entwickelt, mit dem sich gelöschte Social-Media-Inhalte aus noch vorhandenen Netzreferenzen rekonstruieren lassen, berichtet Technology Review in seiner Online-Ausgabe.
SalahEldeen und Nelson hatten im vergangenen Jahr gezeigt, dass zahlreiche Inhalte, die während des arabischen Frühlings entstanden waren, nicht oder nur noch teilweise im Netz vorhanden waren – nach zwei Jahren war mehr als ein Viertel offline. Aus dieser Erkenntnis heraus entwickelte das Team eine Software, mit der fehlendes Material aufgefunden werden kann, selbst wenn es an anderer Stelle im Netz liegt. Dabei machen sie sich die Metainformationen zunutze, die die meisten über Social-Media-Dienste geteilten Internet-Daten enthalten – von Retweets und Hashtags bei Twitter über Facebook-Statusangaben bis hin zum Blog-Kommentar.
Als Suchmaschine kam dabei unter anderem die Twitter-Erfassung Topsy zum Einsatz, die es erlaubt, die Adresse einer fehlenden Quelle einzugeben und Tweets anzuzeigen, die diese referenzieren. So bildeten die Forscher nach und nach eine Signatur. Anschließend extrahierten die Forscher die fünf häufigsten Begriffe, die mit der Signatur in Verbindung standen, und suchten dann schlicht bei Google danach. Ergebnis war eine Liste potenzieller Ersatzinhalte für ein verlorenes Dokument.
Um zu testen, wie genau der Ersatzkandidat der Originalquelle entsprach, führten SalahEldeen und Nelson den gleichen Prozess für Inhalte aus, die noch im Netz vorhanden waren – und verglichen dann die Ersatzkandidaten mit dem Original. In immerhin 40 Prozent aller Fälle enthielten die Ergebnisse eine textliche Ähnlichkeit von mindestens 70 Prozent. Das ist zwar bei weitem noch nicht perfekt, der Algorithmus der Forscher steht aber noch am Anfang. Er soll nach und nach verbessert werden.
Mehr zum Thema in Technology Review online:
(bsc)