Daten anonymisieren: So funktioniert Differential Privacy

Viele Institutionen schützen die Privatsphäre von Nutzern und Bürgern mit "Differential Privacy". Aber wie funktioniert das Verfahren und welche Grenzen hat es?

Artikel verschenken
In Pocket speichern vorlesen Druckansicht 2 Kommentare lesen
Wie Differential Privacy funktioniert

(Bild: Albert Hulm)

Lesezeit: 17 Min.
Inhaltsverzeichnis

Die USA führen dieses Jahr eine Volkszählung durch. Abgefragt werden unter anderem die in einem Haushalt lebenden Personen samt ihrer Ethnie, ihres Alters und Geschlechts und in welcher Beziehung sie miteinander stehen. Solche Daten möchte man nicht unbedingt preisgeben und irgendwo gespeichert wissen. Andererseits haben Staaten natürlich ein berechtigtes Interesse daran, Informationen über ihre Bürger einzuholen. Dank solcher Statistiken können Staatsdiener zum Beispiel den Bedarf an öffentlichen Einrichtungen wie Schulen oder Kindergärten besser kalkulieren.

Differential Privacy verspricht, den Schutz der Privatsphäre und den Wunsch nach möglichst großem Erkenntnisgewinn vereinigen zu können. Das Verfahren wurde 2006 bei Microsoft von einer Forschergruppe um Cynthia Dwork entwickelt. Es nutzt zufälliges Rauschen, um Daten geschickt zu verfälschen. Statistische Ergebnisse bleiben dabei weitgehend erhalten, aber individuelle Informationen lassen sich kaum noch rekonstruieren.

Durch das Rauschen sind differenziell-private Algorithmen nicht deterministisch: Zwei identische Anfragen an einen solchen Algorithmus – mit derselben Datengrundlage – liefern also keine identischen Ergebnisse. Allerdings sind die zurückgegebenen Werte auch nicht beliebig, sondern schwanken um den wahren Wert. Das müssen sie, damit die Ergebnisse statistisch aussagekräftig bleiben.