Anonym war gestern

US-Forscher haben eine Methode entwickelt, mit der sich die Identität von Personen feststellen lässt, die bei Twitter, Flickr & Co. eigentlich unerkannt bleiben wollten.

11.05.2009, 07:36 Uhr

Lesezeit: 5 Min.

MIT Technology Review

Von

Erica Naone

Soziale Netzwerke suchen schon seit langem nach möglichst lukrativen Wegen, mit ihren meist kostenlosen Diensten Geld zu verdienen. Einer davon liegt in der Weitergabe zuvor anonymisierter Nutzerinformationen an ihre Werbekunden – und an andere Unternehmen, die sich für Konsumentenverhalten interessieren oder Online-Trends ausnutzen wollen. Facebook & Co. versprechen üblicherweise, Daten, die Einzelpersonen identifizieren könnten, zuvor aus den Beständen zu tilgen; die Privatsphäre der Nutzer soll dabei stets gewahrt bleiben.

Forscher an der University of Texas in Austin haben nun jedoch herausgefunden, dass sich diese scheinbare Anonymität oft erstaunlich leicht aufheben lässt: Mit Hilfe einer Kombination solcher Informationen mit zumeist reichhaltig vorhandenen Daten anderer Online-Quellen.

Untersucht wurden dabei insbesondere die Foto-Website Flickr und der Kurznachrichtendienst Twitter. Den Wissenschaftlern gelang es dabei, ein Drittel der untersuchten Nutzer mit Accounts beider Dienste zu identifizieren. Dazu reichte es aus, nach erkennbaren Mustern in anonymisierten Netzwerkdaten zu suchen. Sowohl Twitter als auch Flickr zeigen Nutzerinformationen öffentlich an, weswegen die University of Texas-Forscher entsprechende Teile der Daten vorab anonymisierten, bevor sie ihre Algorithmen testeten.

Dabei ging es vor allem darum, zu ermitteln, ob es möglich ist, sensible Informationen über Einzelpersonen zu erhalten, indem einfach nur die Verbindungen zwischen den Nutzern untersucht werden, ohne dass zunächst Namen, Adressen und andere Formen identifizierbarer Daten vorhanden sind. Das erwies sich als korrekt, solange ein Abgleich mit dem sozialen Graphen eines anderen sozialen Netzwerks möglich war, in dem Teile der Nutzerinformationen verfügbar sind.

Daten aus sozialen Netzwerken, dabei insbesondere die Freundschaftsmuster zwischen den Nutzern, können für Reklametreibende sehr wertvoll sein, sagt Vitaly Shmatikov, Professor für Computerwissenschaften an der University of Texas, der an der Studie arbeitete. Die meisten Anbieter wollen mit diesen Daten Geld verdienen. Auf Seiten der Werber sollen so besonders einflussreiche Nutzer gefunden werden, die man dann mit spezifischen Botschaften beschicken kann, damit sie an den Freundeskreis weitergegeben werden. Shmatikov warnt allerdings davor, dass die Weitergabe solcher Informationen die Netze angreifbar mache. "Wenn man diese Daten herausgibt, muss man gleichzeitig die Struktur des sozialen Netzwerks mitteilen. Ohne diese erfüllen sie nicht den gewünschten Zweck."

Der Studie zufolge ist es ziemlich einfach, an nicht anonymisierte Daten aus sozialen Netzwerken zu gelangen. Die Verbindungen zwischen Freunden sind bei vielen Diensten wie etwa Twitter standardmäßig öffentlich. Bemühungen, diesen sozialen Graphen über Einzeldienste hinaus portabel zu machen, wie es etwa die Google-Lösung OpenSocial tut, machen es noch leichter. Der Algorithmus der University of Texas-Forscher funktionierte mit einer Fehlerrate von nur 12 Prozent, selbst wenn die Muster sozialer Verbindungen sehr unterschiedlich waren: Nur 14 Prozent der Nutzerbeziehungen überlagerten sich von Twitter zu Flickr. Die genauen Ergebnisse sollen in dem Paper vorgestellt werden, das in diesem Monat beim "IEEE Symposium on Security and Privacy" in Oakland präsentiert wird.

"Die Struktur des Netzwerks, das sich um einen Menschen befindet, ist derart reichhaltig und vielfältig, dass selbst bei Diensten mit Millionen von Nutzern jeweils eigene Muster um Einzelpersonen entstehen", sagt Shmatikov. Dazu reichten Dinge wie das Einkaufsverhalten, Lieblingsfilme, Freundschaften und soziales Verhalten als Unterscheidungsmerkmal aus. "Jeder Mensch hat ein paar sehr individuelle Eigenschaften die sich sehr stark zur Differenzierung nutzen lassen."

Um dem Algorithmus einen Startpunkt zu geben, müssen die Forscher zunächst einige Nutzer aus dem anonymen Datenhaufen kennen. Doch das ist bei vielen sozialen Netzwerken nicht schwer. Ein Teil der Nutzer bei Facebook entscheidet sich zum Beispiel, die Profile öffentlich zu machen. Das könnte einem Angreifer dann als ersten Ansatz dienen. Im Experiment fanden die Forscher heraus, dass es teilweise ausreichte, nur 30 Personen zu kennen, um den Algorithmus in einem Netzwerk mit 100.000 oder mehr Personen durchlaufen zu lassen.

Dabei wird die kleinste vorhandene Informationsmenge angenommen, obwohl in der Praxis viel mehr Daten bereitstehen. "Der Angriff wäre noch viel stärker gewesen, wenn wir Informationen verwendet hätten, die typischerweise in solchen Datenhaufen verbleiben, obwohl Namen und Adressen geschwärzt sind", sagt Shmatikov. Das bedeute, dass man mit minimalen Beständen beginnen könne.

Alessandro Acquisti, Dozent für Informationstechnologie an der Carnegie Mellon University und Experte für Datenschutz, hält die Studie für sehr wichtig. Sie zeige, wie Daten, die scheinbar unwichtig seien, Angreifern Mittel an die Hand geben könnten, mit denen sie an wirklich sensible Informationen gelangten. Ein Beispiel: Ein solcher Algorithmus könnte die Namen der Lieblingsbands eines Nutzers und die seines Freundeskreises so abgleichen, dass sich daraus womöglich die sexuelle Orientierung ergibt – und zwar aus vorgeblich anonymisierten Daten. Das zeige, wie schlecht es in Zukunft um den Schutz der Privatsphäre im Netz bestellt sei, meint Acquisti. "Es gibt keine vollständige Anonymität mehr."

Shmatikov glaubt, dass es keine technische Lösung für das Problem gibt. Datenschutzgesetze und die Praxis bei den Anbietern selbst müssten geändert werden, da es nun keinen Weg mehr gebe, Daten aus sozialen Netzwerken zu anonymisieren. Gleichzeitig sollten Nutzer sich die Einwilligung in eine Informationsweitergabe genau überlegen. (bsc)