Verräterische Tweets

IBM-Forscher können mit einem speziellen Algorithmus den Aufenthaltsort auch von Twitter-Nutzern ermitteln, die das Geotagging deaktiviert haben. Die Trefferquote liegt bereits bei 70 Prozent.

28.03.2014, 00:01 Uhr

Lesezeit: 5 Min.

MIT Technology Review

Von

TR Online

IBM-Forscher können mit einem speziellen Algorithmus den Aufenthaltsort auch von Twitter-Nutzern ermitteln, die das Geotagging deaktiviert haben. Die Trefferquote liegt bereits bei 70 Prozent.

Manche Twitter-Nutzer versehen ihre Kurzmitteilungen mit einer Ortsangabe. Sie wollen damit vielleicht zur Schau stellen, wie mobil sie sind, oder einfach nur Freunden signalisieren, wo sie sich gerade herumtreiben. Nicht allen Nutzern ist klar, was sie mit ihrem Tweet etwa aus der Lieblingsbar über sich verraten. So manch Prominenter hat schon ungewollt seine Adresse preisgegeben, die eigentlich geheim bleiben sollte. Geotagging kann sogar dramatische Folgen haben: 2007 schossen Guerillakämpfer im Irak vier Helikopter des US-Militärs ab. Auf deren Spur waren die Kämpfer durch Bilder gekommen, die die Piloten auf Twitter platziert hatten - samt Ortsdaten.

Weil sich herumgesprochen hat, wie Geotagging das Ausspionieren von Personen erleichtert, verzichten die meisten Twitter-Nutzer auf genaue Ortsangaben. Nach verschiedenen Studien sind nur ein Prozent aller Tweets mit einem Geotag versehen. Alles in Ordnung also?

Leider nein. Jalal Mahmud vom IBM Almaden Research Center in Kalifornien hat mit Kollegen einen Weg gefunden, aus einer Inhaltsanalyse auf den Heimatort eines Twitter-Nutzers zu schließen - auch wenn der seine Beiträge nicht verortet. Der Algorithmus wertet dazu die letzten 200 Tweets eines Nutzers aus. Die Treffergenauigkeit liegt bei 70 Prozent.

Für ihre Studie suchten sie lokalisierte Tweets aus dem Zeitraum Juli und August 2011 für die 100 größten Städte der USA zusammen. Die Ausgangsbasis war erreicht, nachdem sie für jede Stadt genau 100 Twitter-Nutzer gefunden hatten, die Geotagging praktizierten. Von diesen luden sie die jeweils 200 letzten Mitteilungen herunter, als privat gekennzeichnete wurden dabei verworfen. Insgesamt kamen sie so auf 1,5 Millionen Tweets, die mit einem Geotag versehen waren.

Diesen Datensatz teilten sie nun in zwei Gruppen auf: 90 Prozent der Tweets verwendeten sie, um ihren Algorithmus zu trainieren, die restlichen zehn Prozent dienten als Test-Tweets, auf die der Algorithmus angewendet wurde.

Dessen Grundthese ist, dass in vielen Tweets implizit Informationen über den jeweiligen Aufenthaltsort übermittelt werden. Rund 100.000 Tweets waren beispielsweise über den Ortungsdienst Foursquare generiert worden. Der Ort ergab sich bei ihnen aus dem Foursquare-Link, der in einem Tweet enthalten war. 300.000 weitere Tweets enthielten wiederum Städtenamen - was natürlich noch nicht bedeutet, dass die jeweilige Stadt auch der momentane Aufenthaltsort des Nutzers war.

In anderen Mitteilungen ergaben sich Orte aus dem Inhalt selbst: Twitterte jemand "Lass uns zu den Red Sox gehen", war er ziemlich sicher in Boston. Die Red Sox sind ein bekanntes Baseball-Team aus Boston. Ein weiterer Hinweis ist die Verteilung von Tweets im Laufe der 24 Stunden eines Tages. Die folgt in der Regel einem bestimmten Muster, dass sich in der angrenzenden Zeitzone um eine Stunde verschiebt. Ein Vergleich des Twitterverhaltens eines Nutzers mit dem allgemeinen Durchschnittsmuster ist ein Indiz für die Zeitzone, in der sich die Person aufhält.

Nachdem Mahmud und seine Kollegen diese Vorarbeiten abgeschlossen hatten, machten sie sich an den Test: Würde der Algorithmus denselben Ort vorschlagen, mit dem ein Tweet tatsächlich verortet worden war? Bei dem Algorithmus handelt es sich um das "Naive Bayes Multinomial"-Verfahren. Ausgenommen aus den Test-Tweets wurden nur diejenigen, in denen ein Nutzer ganz offensichtlich auf Reisen war.

Die Ergebnisse sind bemerkenswert: Bei 68 Prozent der Nutzer identifizierte der Algorithmus den richtigen Heimatort, bei 70 Prozent den Bundesstaat, in dem sie leben, und bei 80 Prozent die Zeitzone. Die Rechenzeit pro Nutzer liegt dabei unter einer Sekunde.

Während diese Ergebnisse nicht jedem Twitter-Nutzer gefallen werden, könnten sie für manche Leute interessant sein. Marketing-Firmen könnten so herausfinden, in welcher Stadt ihre Produkte besonders populär sind. Journalisten wiederum könnten herausfinden, ob bestimmte Tweets direkt aus einer Krisenregion, etwa einem Erdbebengebiet, kommen oder nur Kommentare von weit her sind.

Die IBM-Forscher wollen ihren Algorithmus noch verbessern. Ein Ansatz ist, in den Tweets nach noch mehr Merkmalen zu suchen, etwa bekannten Sehenswürdigkeiten. In jedem Fall sollte die Arbeit von Mahmud und seinen Kollegen die Sensibilität weiter erhöhen, wie leicht angreifbar die Privatsphäre ist.

Das Paper:  
Jalal Mahmud et al.: Home Location Identification of Twitter Users, arXiv.org, 7.2.2014 ()