k-Anonymität: Wie man Daten richtig anonymisiert

Beim Anonymisieren von Datensätzen passieren oft Fehler. Deshalb setzen Forscher auf die sogenannte k-Anonymität, die eine eindeutige Zuordnung verhindern soll.

Artikel verschenken

11

(Bild: Michael Luther)

14.02.2020, 09:00 Uhr

Lesezeit: 9 Min.

c't Magazin

Von

Sylvester Tremmel

k-Anonymität: Wie man Daten richtig anonymisiert
- k-Anonymität
- Methoden zur Anonymisierung
- Notwendige Anonymität
- k-Anonymität und Gruppen

Artikel in c't 5/2020 lesen

Daten zu anonymisieren scheint trivial: Damit man Personen nicht identifizieren kann, entferne man schlicht Angaben wie Namen, Ausweisnummern et cetera aus dem Datensatz. Das reicht aber in der Regel nicht aus, denn in den verbleibenden Informationen finden sich mitunter Kombinationen, die sich weiterhin Individuen zuordnen lassen. Die US-Wissenschaftlerin Latanya Sweeney zeigte zum Beispiel, dass sich über die Kombination von Postleitzahl, Geburtsdatum und Geschlecht ungefähr 87 Prozent aller US-Amerikaner eindeutig identifizieren lassen – ganz ohne Namen.

Das ist ein Problem. Denn über solche identifizierenden Kombinationen lassen sich mitunter zwei oder mehrere Datensätze so miteinander verknüpfen, dass die Anonymisierung versagt. Sweeney etwa kombinierte öffentlich zugängliche Krankenversicherungsdaten, die vermeintlich anonymisiert worden waren, mit einem Wählerverzeichnis, das für 20 Dollar frei erhältlich war. Postleitzahl, Geburtsdatum und Geschlecht fanden sich in beiden Datensätzen. Man nennt solche Gruppen von Merkmalen, über die sich Datensätze miteinander verknüpfen lassen, Quasi-Identifizierer (QI). Sweeney konnte darüber einen kombinierten Datensatz erstellen: Das Wählerverzeichnis steuerte die Namen bei, die Versicherungsdaten die zugehörigen Erkrankungen. Die Zuordnung geschah über Postleitzahl, Geburtsdatum und Geschlecht. Dadurch fand Sweeney beispielsweise Diagnosen und Behandlungen des damaligen Gouverneurs von Massachusetts heraus.

In vielen Staaten der USA lassen sich Wählerverzeichnisse kaufen. Alter, Geschlecht, Ethnie und viele weitere Informationen für unter 100 Dollar. Über so detaillierte Informationen lassen sich schlecht anonymisierte Datensätze oft wieder Individuen zuordnen.

Wie lässt sich ein solches Szenario verhindern? Es ist schließlich kaum zu vermeiden, dass jemand veröffentlichte Daten mit anderen Datensätzen kombiniert. Sämtliche Spalten zu entfernen, die QIs bilden, ist meist keine praktikable Idee. Der Datensatz wäre dann zwar anonym und ließe sich nicht mehr mit anderen Daten korrelieren. Er wäre häufig aber auch wertlos, weil zu viele relevante Informationen fehlen.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

, Copyxspace, stock.adobe.com / heise medien

USB-C: Warum Sie eigentlich immer das falsche Kabel anschließen

Das richtige Kabel für USB-C-Verbindungen zu finden, ist ein Glücksspiel: Das eine lädt zu langsam, beim anderen kriechen die Daten im Schneckentempo. Was tun?

Smart Home: Alles, was Einsteiger über Home Assistant wissen müssen

Home Assistant ist ein mächtiges Werkzeug, um das smarte Zuhause zu steuern. Wir erklären in diesem umfangreichen Kompendium die Basisfunktionen.

UpdateiWork ganz neu: Pages, Numbers & Keynote 15 für Mac, iPhone und iPad im Test

Apples Office-Apps erhalten das Liquid-Glas-Design und sind nun Teil von Apple Creator Studio. Das Abo ist kein Zwang, doch einige Features gibt es nur damit.

Notstrom an die Gastherme: Wie es sicher geht und welche Fallstricke es gibt

Generator für die Therme? Oft scheitert es an Stromqualität, Netztrennung und Normen. Welche Technik nötig ist – und warum DIY riskant ist.

Arbeitsagentur: Wenn die Anmeldung zur Arbeitslosigkeit am System scheitert

Wer Mitmenschen beim digitalen Behördengang unterstützen will, wird von arbeitsagentur.de in den Wahnsinn getrieben. Ein Leidensbericht.

Der Wärmepumpen-Inverter: Darum regelt er selten unter 20 Prozent herunter

Der Inverter regelt die Kompressor-Drehzahl, um die Wärmeproduktion an den Bedarf anzupassen. Doch wie funktioniert das und warum kann er nicht auf 0 regeln?