Wie sensible Daten geschützt werden können
Bald sollen EU-weit Daten aus höchst sensiblen Lebensbereichen fließen. Wissenschaftler erklären, welche privatheitsbewahrenden Methoden es dafür gibt.
Datenschutz ist vor allem im Gesundheitswesen ein emotional behaftetes Thema. Während die einen sagen "Datenschutz tötet", mahnen unter anderem Sicherheitsexperten, Datenschützer und Bürgerrechtler zu Vorsicht vor unbedachtem Umgang mit den besonders sensiblen Daten. Angreifer mit Hintergrundwissen können Daten de-anonymisieren – potenzielles und zukünftiges Hintergrundwissen stellt eine Gefahr dar. Falls es Cyberkriminellen gelingt, Daten von Versicherten zu erhalten, könnten diese etwa erpresst werden. Etwas anderes ist es, wenn Patienten von selbst sagen, dass sie ihre Daten der Forschung zur Verfügung stellen, auch um hinterher ihre persönlichen Forschungsergebnisse zu sichten.
Sofern Datenschutz in unserer Gesellschaft eine Rolle spielen soll und wir uns gegen Post-Privacy entscheiden, muss der Schutz der Privatsphäre von Anfang an konsequent mitgedacht werden. Pseudonymisierung funktioniert aus Datenschutzsicht dabei nicht. Bei der Pseudonymisierung ist es im Gegensatz zur Anonymisierung so, dass ein Personenbezug sich wieder herstellen lässt. Eine Re-Identifizierung dürfte bei der Anonymisierung hingegen nicht möglich sein.
Grundlegende Fragen des Datenschutzes sind zudem noch ungeklärt, daher fordern Experten Rechtssicherheit. Gleichzeitig plant das Bundesgesundheitsministerium bereits, riesige Datenmengen in einem ersten gemeinsamen europäischen Datenraum, dem Gesundheitsdatenraum (EHDS) zur Verfügung zu stellen – weitere Datenräume, etwa zu Agrar oder Finanzen, sollen folgen.
Klassische Verfahren nicht ausreichend
Ein weitverbreitetes Schutzverfahren ist die Pseudonymisierung, bei der personenbezogene Daten durch ein künstliches Identifikationsmerkmal ersetzt werden. Obwohl die ursprünglichen Daten nicht direkt erkennbar sind, ist es möglich, durch einen Abgleich mit anderen Informationen die Identität wiederherzustellen.
Ein anderes weit verbreitetes Schutzverfahren ist die Datensatzreinigung, bei der jeder Datenpunkt einzeln transformiert wird. Eine Datensatzreinigung stößt gegen ressourcenreiche Angreifer allerdings an ihre Grenzen. Zu Datensatzreinigungsverfahren zählt unter anderem Schwärzung und Verallgemeinerung, womit zum Beispiel sogenannte K-Anonymität für den Datensatz erreicht werden soll.
K-Anonymität soll sicherzustellen, dass in einem Datensatz jede einzelne Person in einer Gruppe von mindestens "K" Personen nicht eindeutig identifizierbar ist. K-Anonymität wird erreicht, wenn die Informationen, die veröffentlicht oder analysiert werden, nicht auf eine spezifische Person innerhalb einer Gruppe von K Personen zurückgeführt werden können.
Um K-Anonymität zu gewährleisten, werden verschiedene Techniken verwendet, wie beispielsweise die Aggregation von Daten, die Generalisierung von Attributen und die Unterdrückung bestimmter Daten. Diese Methoden zielen darauf ab, die Details zu verfremden oder zu modifizieren, um sicherzustellen, dass die individuellen Identitäten in einem Datensatz geschützt sind, ohne dabei die Gesamtnützlichkeit der Daten für statistische Analysen oder andere Zwecke zu verlieren.
Mit der K-Anonymität ist es durch eine Kombination von Attributen allerdings möglich, Personen zu re-identifizieren. Zusätzlich können Techniken, wie beispielsweise Maschinelles Lernen, manchmal trotz K-Anonymität eine Re-Identifikation ermöglichen, etwa durch korrelierte Einträge oder Hintergrundinformationen.
TOMs haben Grenzen
Alle bisherigen Technisch Organisatorischen Maßnahmen (TOMs) für den Datenschutz sind begrenzt, da sich Daten mit anderen verfügbaren Datenquellen kombinieren lassen. Durch die Analyse der Daten auf bestimmte Muster oder den Kontext lassen sich möglicherweise ebenfalls Rückschlüsse auf Personen ziehen. Gleichzeitig dürfen die Daten für die Forschung nicht unbrauchbar werden, etwa nach der Ersetzung zu vieler Informationen durch separat gespeicherte Zeichen, die keinen direkten Bezug zu den ursprünglichen Daten haben.
Um persönliche Daten zu schützen, aggregieren moderne Verfahren – zum Beispiel aus dem Forschungsbereich Differential Privacy – die Daten mehrerer Personen. Das soll den Einfluss einzelner Personen verringern und verrauschen die Berechnungsergebnisse zusätzlich, um die Informationen, die neugierige Angreifer aus dem Berechnungsergebnis ziehen können, soweit zu minimieren, dass De-anonymisierungsangriffe nicht mehr praktikabel sind. Die Zufallsverteilungen, mit denen Berechnungsergebnisse verrauscht werden, werden vorsichtig so gewählt, dass bei statistischen Auswertungen über große Datenmengen nur minimale Abweichungen entstehen und die Auswertungen ihre statistische Gültigkeit behalten.