"Tor in die Datenfreiheit": Neuer Leitfaden zur Anonymisierung

Die Stiftung Datenschutz hat Praxisrichtlinien zum Anonymisieren persönlicher Daten herausgegeben. Kontrolleure sprechen von einem per se mächtigen Instrument.

In Pocket speichern vorlesen Druckansicht 9 Kommentare lesen
Abstract,Futuristic,Cyberspace,With,A,Hacked,Array,Of,Binary,Data,

(Bild: Shutterstock)

Lesezeit: 7 Min.
Inhaltsverzeichnis

Im Rahmen ihres Formats "Datentag" hat die Stiftung Datenschutz am Mittwoch in Bonn einen allgemeinen und branchenübergreifenden Praxisleitfaden zum Anonymisieren personenbezogener Daten vorgestellt und mit Experten diskutiert. "Anonymisierung schafft Freiräume" etwa für Forschung und Wirtschaft, hob der Bundesdatenschutzbeauftragte Ulrich Kelber dazu prinzipiell hervor. Es handle sich um ein "mächtiges Instrument", das bisher eher stiefmütterlich behandelt worden sei.

Zugleich berichtete Kelber aber auch von Herausforderungen: Eine "gute Anonymisierung" stelle ein Stück weit "die Quadratur des Kreises" dar, wenn die maximale Erklärungskraft der Daten erhalten bleiben und die betroffene Person "praktisch nicht mehr identifiziert" werden können solle. Zahlreiche Fragen etwa zur Validität des Anonymisierungsverfahrens seien ungeklärt.

"Wir bauen unser Leben darauf auf, dass wir in manchen Dingen anonym unterwegs sind", unterstrich der Kontrolleur die Bedeutung der Unbeobachtbarkeit. Es handle sich um ein "Freiheitsrecht", das etwa momentan im Iran eingefordert werde und früher beim Arabischen Frühling entscheidend gewesen sei. Diese Beispiele zeigten zugleich, dass die Risiken aus einer misslungenen Anonymisierung massiv sein könnten: Es ließen sich dann etwa Bewegungsprofile erstellen oder Regimekritiker demaskieren.

Die Datenschutz-Grundverordnung (DSGVO) gehe nur rudimentärst in einem einzigen Erwägungsgrund auf die Anonymisierung ein, erklärte Kelber. Daraus gehe etwa hervor, dass die Grundzüge des Gesetzes sich nicht auf anonymisierte Daten beziehen sollten. Frederick Richter, Vorstand der Stiftung Datenschutz, spreche daher gern vom "Tor in die Datenfreiheit". Unter in dieser Hinsicht datengetriebene Dienste zu ermöglichen, müsse die Anonymisierung aber "belastbar" und für eine gewisse Zeit aufrechtzuerhalten sein. Ferner sei eine Rechtsgrundlage nötig, wobei nicht nur eine Einwilligung infrage komme.

Der 62-seitige Leitfaden selbst beschreibt etwa praktische Anwendungsfälle, die von der politisch gewollten datenschutzkonformen Auswertung von Gesundheitsdaten über die Verwendung von digitalen Straßenkarten bis zu aggregierten Nutzerstatistiken im Online-Bereich oder im Rahmen vertraglicher Kundenbeziehungen reichen. Hier bestehe oft der Wunsch von Verantwortlichen, per Anonymisierung den Anwendungsbereich der DSGVO zu verlassen.

Aus Sicht der DSGVO können laut den Autoren verschiedene Anonymisierungstechniken wie die stochastische Überlagerung oder das Vertauschen und Verrauschen von Werten ("Differential Privacy") eingesetzt werden. Auch generalisierende Verfahren wie Aggregation und das Arbeiten mit synthetischen Daten kämen in Frage. Entscheidend sei, dass nach Prüfung einschlägiger Faktoren eine Re-Identifizierung von Betroffenen "praktisch nicht durchführbar ist". Wäre dafür ein unverhältnismäßiger Aufwand an Zeit, Kosten und Arbeitskraft erforderlich, könne "grundsätzlich von einer wirksamen Anonymisierung ausgegangen werden".

Parallel hat die Stiftung eine Basis für Verhaltensregeln zum Anonymisieren nach Artikel 40 DSGVO veröffentlicht. Die freiwillige Verpflichtung eines Unternehmens auf einschlägige genehmigte "Codes of Conduct" soll die Selbstregulierung der Wirtschaft fördern und den Nachweis datenschutzrechtlicher Konformität erleichtern.

In der Handreichung sei es nicht möglich gewesen, Formen der Anonymisierung für jeden konkreten Anwendungsfall auszuspezifizieren, führte Rolf Schwartmann aus. Der Professor gehört mit Kollegen von der Gesellschaft für Datenschutz und Datensicherheit (GDD) sowie der Datenschutz-Zertifizierungsgesellschaft (DSZ) zu den Autoren des Leitfadens. Eine Standardisierung von Prozessschritten sei aber möglich. Generell sei es darum gegangen, Begrifflichkeiten und Anforderungen aus rechtlicher und technischer Sicht zusammenzufassen und auch ein Angreifermodell darzustellen.

Vier Einsatzklassen und Nutzungsszenarien der Anonymisierung stellen die Verfasser dar. Dazu gehört die Löschung persönlicher Daten, die laut Michael Meier von der GDD etwa für das Erstellen von Webseitenstatistiken oder die Qualitätsanalyse des Kundendienstes eines Elektrohändlers elementar sei. Dies gelte auch für die Weitergabe etwa von Gehaltslisten oder Verkaufszahlen pro Produktkategorie, Trainieren von Algorithmen oder das Testen von Software.

Die Autoren stützen sich dabei etwa auf Vorarbeiten der einstigen Artikel-29-Gruppe der EU-Datenschutzbeauftragten, des IT-Verbands Bitkom und ein Positionspapier Kelbers von 2020. Laut DSGVO sollten bei einer Prüfung demnach alle Mittel berücksichtigt werden, die von dem Verantwortlichen oder einer anderen Person nach allgemeinem Ermessen wahrscheinlich genutzt werden, um die natürliche Person direkt oder indirekt wieder kenntlich zu machen. Gerade im Big-Data-Kontext müssten so etwa erweiterte Analysefähigkeiten und damit verknüpfte Mittel zur De-Anonymisierung schon mit abgewogen werden.

Auf gute Erfahrungen mit der seit 2015 entwickelten eigenen Datenanonymisierungsplattform (DAP) für Bestands- und Verkehrsinformationen verwies Timo Wilken von Telefónica Deutschland. Letztlich werde dafür die Mobilfunk-Teilnehmererkennung IMSI mit einer täglich wechselnden Nummernfolge ("Salt") versehen. Nutzerdaten würden in kleinstmögliche Bestandsteile wie Geschlecht und Alter segmentiert, transformiert und in getrennten Zonen verarbeitet.

So lasse sich "die Mobilität der Bevölkerung sichtbar und nutzbar machen", stellte Wilken dar. Dies sei etwa für die Städte- und Verkehrsplanung entscheidend. Am bekanntesten seien die einschlägigen Analysen zur Wirksamkeit der Corona-Lockdowns. Herauslesen könne man etwa auch: "Berlin-Mitte startet um 10:20 Uhr in den Tag, zwei Stunden später als der Bundesdurchschnitt." Dies könne freilich auch an den Öffnungszeiten der dortigen Geschäfte liegen. Auch interessant: Am Rosenmontag erfolgten "größere Reisen nach Köln als nach Düsseldorf".

Am Beispiel medizinischer Forschungsdaten gewährte Fabian Prasser von der Berliner Charité Einblicke in die Anomyisierungsbemühungen im Gesundheitswesen. Das Instrumentarium bestehen etwa darin, eine Stichprobe zu ziehen, einzelne Merkmal zu entfernen, Werte wie die Postleitzahl zu maskieren, etwa beim Gewicht zu generalisieren und letztlich zu kategorisieren. Katalogbasiert, qualitativ und quantitativ würden schützenswerte Variablen selektiert, um eine Verknüpfung zu verhindern. Dafür werde auch eine Schwellenwertanalyse durchgeführt.

"Je mehr Daten man hat, desto besser kann man Anonymisierungsverfahren verwenden", stellte Prasser als Faustregel auf. Dann gebe es auch mehr Möglichkeiten, herausstechende Merkmale des Einzelnen wie eine seltene Erkrankung in der Gruppe zu verstecken. Bislang gebe es leider nur wenig frei verfügbare Werkzeuge zur Anonymisierung, auch wenn Differential Privacy oft als Goldstandard gehandelt werde. Die Charité entwickle daher zusammen mit Forschungspartnern selbst das ARX Data Anonymization Tool.

An Instrumenten zur Messung von Anonymität arbeitet derweil die an der TU München beheimatete Robotics and AI Law Society (RAILS). Ein Pflegeroboter solle etwa lernen, zwischen einer Person zu unterscheiden, die eine Yoga-Übung macht, oder einer, die hingefallen ist, schilderte der beteiligte Jurist Michael Kolain. Für einen entsprechenden Leitfaden zur Anonymitätseinschätzung sei das Team dabei, die DSGVO in Mathematik zu übersetzen, also etwa einen Schwellenwert für den Grad an Pseudonymität zu ermitteln, ab dem ein Personenbezug mehr oder weniger sicher ausgeschlossen werden könne.

Für Christian Grafenauer vom Legal-Tech-Startup TechGDPR bleiben aber etwa auch bei verpixelten Bildern in der Kamera des Roboters noch Fragen zum angemessenen Schutzniveau offen. Generell sei unklar, wie sieht es mit unstrukturierten, wachsenden Datenbeständen etwa in der Blockchain aussehe.

(olb)