zurück zum Artikel

k-AnonymitÀt: Wie man Daten richtig anonymisiert

| Sylvester Tremmel

Beim Anonymisieren von DatensÀtzen passieren oft Fehler. Deshalb setzen Forscher auf die sogenannte k-AnonymitÀt, die eine eindeutige Zuordnung verhindern soll.

Daten zu anonymisieren scheint trivial: Damit man Personen nicht identifizieren kann, entferne man schlicht Angaben wie Namen, Ausweisnummern et cetera aus dem Datensatz. Das reicht aber in der Regel nicht aus, denn in den verbleibenden Informationen finden sich mitunter Kombinationen, die sich weiterhin Individuen zuordnen lassen. Die US-Wissenschaftlerin Latanya Sweeney zeigte zum Beispiel, dass sich ĂŒber die Kombination von Postleitzahl, Geburtsdatum und Geschlecht ungefĂ€hr 87 Prozent aller US-Amerikaner eindeutig identifizieren lassen – ganz ohne Namen.

Das ist ein Problem. Denn ĂŒber solche identifizierenden Kombinationen lassen sich mitunter zwei oder mehrere DatensĂ€tze so miteinander verknĂŒpfen, dass die Anonymisierung versagt. Sweeney etwa kombinierte öffentlich zugĂ€ngliche Krankenversicherungsdaten, die vermeintlich anonymisiert worden waren, mit einem WĂ€hlerverzeichnis, das fĂŒr 20 Dollar frei erhĂ€ltlich war. Postleitzahl, Geburtsdatum und Geschlecht fanden sich in beiden DatensĂ€tzen. Man nennt solche Gruppen von Merkmalen, ĂŒber die sich DatensĂ€tze miteinander verknĂŒpfen lassen, Quasi-Identifizierer (QI). Sweeney konnte darĂŒber einen kombinierten Datensatz erstellen: Das WĂ€hlerverzeichnis steuerte die Namen bei, die Versicherungsdaten die zugehörigen Erkrankungen. Die Zuordnung geschah ĂŒber Postleitzahl, Geburtsdatum und Geschlecht. Dadurch fand Sweeney beispielsweise Diagnosen und Behandlungen des damaligen Gouverneurs von Massachusetts heraus.

In vielen Staaten der USA lassen sich WĂ€hlerverzeichnisse kaufen. Alter, Geschlecht, Ethnie und viele weitere Informationen fĂŒr unter 100 Dollar. Über so detaillierte Informationen lassen sich schlecht anonymisierte DatensĂ€tze oft wieder Individuen zuordnen.

In vielen Staaten der USA lassen sich WĂ€hlerverzeichnisse kaufen. Alter, Geschlecht, Ethnie und viele weitere Informationen fĂŒr unter 100 Dollar. Über so detaillierte Informationen lassen sich schlecht anonymisierte DatensĂ€tze oft wieder Individuen zuordnen.

Wie lĂ€sst sich ein solches Szenario verhindern? Es ist schließlich kaum zu vermeiden, dass jemand veröffentlichte Daten mit anderen DatensĂ€tzen kombiniert. SĂ€mtliche Spalten zu entfernen, die QIs bilden, ist meist keine praktikable Idee. Der Datensatz wĂ€re dann zwar anonym und ließe sich nicht mehr mit anderen Daten korrelieren. Er wĂ€re hĂ€ufig aber auch wertlos, weil zu viele relevante Informationen fehlen.


URL dieses Artikels:
https://www.heise.de/-4659194