c't 5/2020
S. 156
Wissen
k-Anonymität
Bild: Michael Luther

Die K-Frage

Wie man Daten richtig anonymisiert

Um Datensätze mit persönlichen Informationen weitergeben zu dürfen, wie es beispielsweise im Rahmen von Studien üblich und sinnvoll ist, muss man sie anonymisieren. Dabei passieren allerdings oft Fehler, sodass sich einzelne Personen anhand verbleibender Merkmale identifizieren lassen. Deshalb setzen Forscher auf die sogenannte k-Anonymität, die eine eindeutige Zuordnung verhindern soll. Doch bei der Umsetzung lauern Gefahren.

Von Sylvester Tremmel

Daten zu anonymisieren scheint trivial: Damit man Personen nicht identifizieren kann, entferne man schlicht Angaben wie Namen, Ausweisnummern et cetera aus dem Datensatz. Das reicht aber in der Regel nicht aus, denn in den verbleibenden Informationen finden sich mitunter Kombinationen, die sich weiterhin Individuen zuordnen lassen. Die US-Wissenschaftlerin Latanya Sweeney zeigte zum Beispiel, dass sich über die Kombination von Postleitzahl, Geburtsdatum und Geschlecht ungefähr 87 Prozent aller US-Amerikaner eindeutig identifizieren lassen – ganz ohne Namen.

Das ist ein Problem. Denn über solche identifizierenden Kombinationen lassen sich mitunter zwei oder mehrere Datensätze so miteinander verknüpfen, dass die Anonymisierung versagt. Sweeney etwa kombinierte öffentlich zugängliche Krankenversicherungsdaten, die vermeintlich anonymisiert worden waren, mit einem Wählerverzeichnis, das für 20 Dollar frei erhältlich war. Postleitzahl, Geburtsdatum und Geschlecht fanden sich in beiden Datensätzen. Man nennt solche Gruppen von Merkmalen, über die sich Datensätze miteinander verknüpfen lassen, Quasi-Identifizierer (QI). Sweeney konnte darüber einen kombinierten Datensatz erstellen: Das Wählerverzeichnis steuerte die Namen bei, die Versicherungsdaten die zugehörigen Erkrankungen. Die Zuordnung geschah über Postleitzahl, Geburtsdatum und Geschlecht. Dadurch fand Sweeney beispielsweise Diagnosen und Behandlungen des damaligen Gouverneurs von Massachusetts heraus.

Kommentieren