Wie sensible Daten geschützt werden können

Bald sollen EU-weit Daten aus höchst sensiblen Lebensbereichen fließen. Wissenschaftler erklären, welche privatheitsbewahrenden Methoden es dafür gibt.

In Pocket speichern vorlesen Druckansicht 66 Kommentare lesen
Hand am Smartphone zeigt auf grünen Haken

(Bild: tete_escape/Shutterstock.com)

Lesezeit: 12 Min.
Von
  • Prof. Esfandiar Mohammadi
  • Prof. Dominique Schröder
  • Prof. Pascal Berrang
Inhaltsverzeichnis

Datenschutz ist vor allem im Gesundheitswesen ein emotional behaftetes Thema. Während die einen sagen "Datenschutz tötet", mahnen unter anderem Sicherheitsexperten, Datenschützer und Bürgerrechtler zu Vorsicht vor unbedachtem Umgang mit den besonders sensiblen Daten. Angreifer mit Hintergrundwissen können Daten de-anonymisieren – potenzielles und zukünftiges Hintergrundwissen stellt eine Gefahr dar. Falls es Cyberkriminellen gelingt, Daten von Versicherten zu erhalten, könnten diese etwa erpresst werden. Etwas anderes ist es, wenn Patienten von selbst sagen, dass sie ihre Daten der Forschung zur Verfügung stellen, auch um hinterher ihre persönlichen Forschungsergebnisse zu sichten.

Sofern Datenschutz in unserer Gesellschaft eine Rolle spielen soll und wir uns gegen Post-Privacy entscheiden, muss der Schutz der Privatsphäre von Anfang an konsequent mitgedacht werden. Pseudonymisierung funktioniert aus Datenschutzsicht dabei nicht. Bei der Pseudonymisierung ist es im Gegensatz zur Anonymisierung so, dass ein Personenbezug sich wieder herstellen lässt. Eine Re-Identifizierung dürfte bei der Anonymisierung hingegen nicht möglich sein.

Grundlegende Fragen des Datenschutzes sind zudem noch ungeklärt, daher fordern Experten Rechtssicherheit. Gleichzeitig plant das Bundesgesundheitsministerium bereits, riesige Datenmengen in einem ersten gemeinsamen europäischen Datenraum, dem Gesundheitsdatenraum (EHDS) zur Verfügung zu stellen – weitere Datenräume, etwa zu Agrar oder Finanzen, sollen folgen.

Ein weitverbreitetes Schutzverfahren ist die Pseudonymisierung, bei der personenbezogene Daten durch ein künstliches Identifikationsmerkmal ersetzt werden. Obwohl die ursprünglichen Daten nicht direkt erkennbar sind, ist es möglich, durch einen Abgleich mit anderen Informationen die Identität wiederherzustellen.

Ein anderes weit verbreitetes Schutzverfahren ist die Datensatzreinigung, bei der jeder Datenpunkt einzeln transformiert wird. Eine Datensatzreinigung stößt gegen ressourcenreiche Angreifer allerdings an ihre Grenzen. Zu Datensatzreinigungsverfahren zählt unter anderem Schwärzung und Verallgemeinerung, womit zum Beispiel sogenannte K-Anonymität für den Datensatz erreicht werden soll.

K-ANONYMITÄT​

K-Anonymität soll sicherzustellen, dass in einem Datensatz jede einzelne Person in einer Gruppe von mindestens "K" Personen nicht eindeutig identifizierbar ist. K-Anonymität wird erreicht, wenn die Informationen, die veröffentlicht oder analysiert werden, nicht auf eine spezifische Person innerhalb einer Gruppe von K Personen zurückgeführt werden können.

Um K-Anonymität zu gewährleisten, werden verschiedene Techniken verwendet, wie beispielsweise die Aggregation von Daten, die Generalisierung von Attributen und die Unterdrückung bestimmter Daten. Diese Methoden zielen darauf ab, die Details zu verfremden oder zu modifizieren, um sicherzustellen, dass die individuellen Identitäten in einem Datensatz geschützt sind, ohne dabei die Gesamtnützlichkeit der Daten für statistische Analysen oder andere Zwecke zu verlieren.

Mit der K-Anonymität ist es durch eine Kombination von Attributen allerdings möglich, Personen zu re-identifizieren. Zusätzlich können Techniken, wie beispielsweise Maschinelles Lernen, manchmal trotz K-Anonymität eine Re-Identifikation ermöglichen, etwa durch korrelierte Einträge oder Hintergrundinformationen.

Alle bisherigen Technisch Organisatorischen Maßnahmen (TOMs) für den Datenschutz sind begrenzt, da sich Daten mit anderen verfügbaren Datenquellen kombinieren lassen. Durch die Analyse der Daten auf bestimmte Muster oder den Kontext lassen sich möglicherweise ebenfalls Rückschlüsse auf Personen ziehen. Gleichzeitig dürfen die Daten für die Forschung nicht unbrauchbar werden, etwa nach der Ersetzung zu vieler Informationen durch separat gespeicherte Zeichen, die keinen direkten Bezug zu den ursprünglichen Daten haben.

Um persönliche Daten zu schützen, aggregieren moderne Verfahren – zum Beispiel aus dem Forschungsbereich Differential Privacy – die Daten mehrerer Personen. Das soll den Einfluss einzelner Personen verringern und verrauschen die Berechnungsergebnisse zusätzlich, um die Informationen, die neugierige Angreifer aus dem Berechnungsergebnis ziehen können, soweit zu minimieren, dass De-anonymisierungsangriffe nicht mehr praktikabel sind. Die Zufallsverteilungen, mit denen Berechnungsergebnisse verrauscht werden, werden vorsichtig so gewählt, dass bei statistischen Auswertungen über große Datenmengen nur minimale Abweichungen entstehen und die Auswertungen ihre statistische Gültigkeit behalten.

Datensatzsynthetisierungsverfahren haben das Potenzial, die Daten zu aggregieren und dadurch Eigenschaften der Verteilung der Originaldaten zu lernen. Die Aggregation hat das Potenzial, den Einfluss einzelner Personen auf die synthetischen Daten gering zu halten und dadurch beweisbare Anonymitätsbewahrungsgarantien zu erreichen. Eine von Stadler et al. 2022 veröffentlichte Studie zeigt, dass die Wiederverknüpfung von "anonymisierten Daten" auch beim Einsatz synthetischer Daten möglich ist.

Trotz technologischer Fortschritte ist es weiterhin notwendig, privatheitsbewahrende Techniken anzupassen. Sie zeigen, dass aktuelle Implementierungen von Datensatzsynthetisierungsverfahren subtile Schwachstellen aufweisen. Da Syntheseverfahren das Ziel haben, den Originaldatensatz zu imitieren, gibt es viele Schlupflöcher für Fußabdrücke, um Informationen der Originaldaten zu erhalten, wie etwa den Wertebereich der Originaldaten.

Es gibt eine Vielzahl an Vorschlägen, wie Daten privatheitsbewahrend verarbeitet werden können. Während eine anonymisierende Datensatzsynthese grundsätzlich nicht unmöglich erscheint, ist sie eine der schwierigsten Aufgaben, um Daten möglichst sicher zu verarbeiten, weil darin sehr viele Schlupflöcher für Fußabdrücke der Originaldaten geschlossen werden müssen. Einfacher ist es direkt, die Verarbeitung der Originaldaten privatheitsbewahrend zu gestalten.

Es gibt in der Forschungsliteratur eine Reihe von Arbeiten, die beweisbare Anonymitätsbewahrungsgarantien bieten, wie etwa Verarbeitungsverfahren, die sogenannte Differential Privacy (DP) erfüllen. Diese Verfahren benötigen aktuell noch Daten von einer Vielzahl an Personen, um verlässliche Garantien und nützliche Ergebnisse zu liefern, aber neue Forschungsergebnisse verringern die benötigten Datenmengen kontinuierlich.

Differential Privacy

Differential Privacy (DP) ist eine Anforderung an Datenverarbeitungsverfahren, die präzise formuliert, in welchem Maße bei einer Datenverarbeitung die Privatsphäre Einzelner geschützt sein müssen. Datenverarbeitungsverfahren, die Differential Privacy erfüllen, müssen typischerweise trotzdem Schutz Einzelner auch nützliche aggregierte Informationen aus den Daten gewinnen. Die Ergebnisse einer Abfrage oder Analyse sollen somit nicht signifikant beeinflusst werden, wenn die Daten eines einzelnen Individuums geändert oder entfernt werden.

Genau genommen fordert Differential Privacy, dass die Daten eines Individuums die Informationen, die aus dem Ergebnis eines Datenverarbeitungsvorgangs gezogen werden können, nicht stark verändert. Selbst wenn – außer der Daten dieses Individuums – beliebige Hintergrundinformationen über die Daten bekannt sind, wie etwa weitere Berechnungsergebnisse auf der Basis derselben Daten. Ein gängiger Ansatz, um Differential Privacy zu erfüllen und damit den Schutz der Privatsphäre zu gewährleisten, ist die Nutzung verrauschter Statistiken oder anderer aggregierter Information. Damit soll sichergestellt werden, dass individuelle Daten nicht identifiziert werden können, selbst wenn das gesamte Datenset analysiert wird.

DP ist insbesondere in Bereichen wie der Datenaggregation, der Verarbeitung medizinischer Daten, sozialer Analysen und anderen Anwendungen, in denen sensible Informationen geschützt werden müssen, von großer Bedeutung. Die Implementierung von DP erfordert jedoch sorgfältige und spezifische Techniken, um sicherzustellen, dass die Privatsphäre gewahrt bleibt, ohne die Nützlichkeit der Daten für Analysezwecke zu beeinträchtigen. Dies kann komplex sein, da das Hinzufügen von Rauschen oder das Verfälschen der Daten die Genauigkeit der Analyse beeinträchtigen kann.

Eine interessante Richtung stellen optimierungsbasierte Ansätze dar, um maschinell lernende Modelle so zu trainieren, dass sie aus sensiblen Trainingsdaten eine gewünschte Aufgabe lernen. Ein beliebter Ansatz ist eine Version des sogenannten Gradientenabstiegsverfahren (Gradient Descent), die Differential Privacy erfüllt: DP-SGD.

GRADIENTENABSTIEGSVERFAHREN

Das Gradientenabstiegsverfahren (Gradient Descent) ist ein Optimierungsalgorithmus, der eine entscheidende Rolle in vielen maschinellen Lernalgorithmen spielt, zum Beispiel beim Training neuronaler Netzwerke. Das ist besonders nützlich bei der Anpassung von Modellen an Trainingsdaten, indem die Parameter des Modells iterativ angepasst werden, um eine optimale Lösung zu finden.

Hierin werden mehrere Eigenschaften gleichzeitig gelernt – die Informationen aus persönlichen Daten lassen sich mittels des Gradientenabstiegsverfahrens sehr gezielt extrahieren, während der Aggregierung der Daten von vielen Personen gleichzeitig. Parallel wird sichergestellt, dass der Einfluss einzelner Datenpunkte beschränkt ist – durch eine gezielte Verrauschung des Lernprozesses wird eine Art Abstreitbarkeit erreicht. Aus diesem Grund sind maschinelle Lernverfahren eine sehr große Chance für Datenverarbeitungsverfahren auf persönlichen Daten, um diese zu schützen.

Ein wichtiger Punkt bei all diesen Verfahren ist jedoch, dass sie nur die geheimen Eingaben schützen und nur das Ergebnis der Berechnung preisgeben. Das Ergebnis als solches kann jedoch Informationen über die Dateneigentümer preisgeben. Das folgende Beispiel verdeutlicht dies. Angenommen, wir wollen den Notendurchschnitt einer Klasse berechnen. Dazu führen alle Schüler ein sicheres Rechenverfahren durch, an dessen Ende jeder Schüler den Notendurchschnitt kennt.

Nehmen wir nun an, dass sich die Schüler untereinander unterhalten und alle bis auf einen ihre Noten bekannt geben. Da alle SchülerInnen durch die Berechnung den Notendurchschnitt kennen und voneinander die Noten erfahren haben, können sie leicht die Note des letzten Schülers berechnen. Das heißt, auch wenn man keinen direkten Zugriff auf die letzte Note hat, lässt sich aus dem Ergebnis die "geheime Note" berechnen. Wendet man hingegen Techniken aus dem Bereich der differenziellen Geheimhaltung an, so ist es auch in diesem Fall nicht möglich, auf die fehlende Note zu schließen, selbst wenn alle Noten bis auf die des Schülers bekannt sind.

Eine zentrale Speicherung schafft einzelne Ziele, die für Angreifer attraktiv sind, sodass es sich für organisierte Angreifer lohnt, ihre Ressourcen auf diese Ziele zu konzentrieren. Außerdem verlagert eine zentrale Speicherung die Verantwortung auf einzelne Parteien. Ein Gegensatz zur zentralen Speicherung bietet eine verteilte Speicherung von Daten, zum Beispiel lassen sich Daten dort speichern, wo sie erhoben wurden. Eine verteilte Speicherung von Daten wirft allerdings die Frage auf, wie die Daten so verarbeitet werden können, wie es bei einer zentralen Speicherung möglich wäre.

Die wissenschaftliche Literatur präsentiert viele Verfahren, um lokale gespeicherte Daten so zu verarbeiten, dass ein ähnliches Maß an Sicherheit erreicht werden kann wie in dem Fall, in dem alle Daten zentral gespeichert werden. Nennen wir solche Verfahren mal sichere verteilte Datenverarbeitungsverfahren.

Ein beliebtes verteiltes Verarbeitungsverfahren für maschinelles Lernen ist das föderierte Lernen, bei dem Daten lokal auf den Geräten der Nutzer gespeichert und nur Informationen über die gemachten Lernfortschritte an zentrale Systeme übermittelt werden. Diese klassische Art des föderierten Lernens ist allerdings unsicher, weil aus den Informationen über die Lernfortschritte die originalen, lokalen Daten rekonstruiert werden können ("Deep Leakage from Gradients" by Ligeng Zhu, Zhijian Liu, Song Han, appeared in Advances in Neural Information Processing Systems 32 (NeurIPS 2019)).

Für die sichere verteilte Datenverarbeitung hingegen gibt es sehr reichhaltige Literatur kryptographischer Verfahren. Diese Verfahren beginnen bei der überprüfbaren Berechnung auf verteilten Daten, über die Berechnung auf verschlüsselten Daten (homomorphe Verschlüsselung) bis hin zur sicheren Mehrparteienberechnung (Secure multi-party computation). Die Verfahren unterscheiden sich im Umfang der Funktionalität und in den Sicherheitseigenschaften, die sie erreichen. Vereinfacht gesagt geht es beim sicheren, verifizierbaren Rechnen auf verteilten Daten darum, sicherzustellen, dass das Ergebnis der Berechnung korrekt ist, ohne notwendigerweise auf alle Daten zugreifen zu können. Mit diesen kryptografischen Verfahren kann übrigens auch das föderierte Lernen so gehärtet werden, dass es sicher ist.

Wie der Name sagt, ist bei der Berechnung auf verschlüsselten Daten keine Entschlüsselung der Daten notwendig – alle Berechnungen können direkt auf den verschlüsselten Daten durchgeführt werden. Auch das Ergebnis der Berechnung liegt ausschließlich in verschlüsselter Form vor. Intuitiv kann man sich das so vorstellen: Die verschlüsselten Daten befinden sich in einer Box, die keine Informationen über die Daten preisgibt. Durch einen Schlitz in der Box kann ein Programm in die Box eingegeben werden. Die Box führt dann die Berechnung des Programms aus und speichert das Ergebnis wieder in der Box. Für die Box gibt es einen (geheimen) Schlüssel, mit dem man auf das Ergebnis zugreifen kann.

Beim letzten Verfahren, dem Secure Multi-party Computing, können beliebige Berechnungen verteilt auf alle Teilnehmer durchgeführt werden. Dieses Verfahren zeichnet sich durch folgende Eigenschaften aus

  1. Jeder Teilnehmer hat eine geheime Eingabe; Daten, die geschützt werden müssen.
  2. Sichere verteilte Berechnungen sind in ihrer Funktionalität nicht eingeschränkt. Es können die gleichen Programme berechnet werden wie bei einer zentralisierten Lösung, bei der alle Daten auf einem Server verarbeitet werden.
  3. Die Sicherheitseigenschaften besagen, dass nur das Ergebnis der Berechnung offengelegt wird, jedoch keine (nicht-trivialen) Informationen über die geheimen Daten der Teilnehmer an der verteilten Berechnung.

Als Beispiel dient das sogenannte Yao-Millionärsproblem. Dabei möchte eine Menge von Millionären herausfinden, wer von ihnen der reichste ist, ohne ihren Reichtum preiszugeben. Dies kann durch sicheres verteiltes Rechnen realisiert werden.

Ein wichtiger Punkt bei all diesen Verfahren ist jedoch, dass das Ergebnis der Berechnung die Privatsphäre der Dateneigentümer nicht schützt, das heißt, auch wenn man keinen direkten Zugriff auf die Daten hat, kann das Ergebnis als solches Informationen über die Dateneigentümer preisgeben. Dafür sind komplementär die oben diskutierten aggregationsbasierten Verfahren notwendig.

Selbst wenn alle Daten zentral gespeichert sind, ist beim Umgang mit hochsensiblen Daten Vorsicht geboten. Es gibt hier verschiedene Methoden, je nach Anwendungsfall mehr oder weniger gut geeignet. Bei der Verarbeitung mit Daten ist es beispielsweise ratsam, diese für die Sicherung von Edge-Computing-Umgebungen in einer vertrauenswürdigen Ausführungsumgebung (VAU) zu speichern. Die VAU kann sich auf einer extra Hardware befinden, die allerdings geklaut werden könnte. Daher sind hier kryptologische Verfahren besser geeignet.

Prof. Dominique Schröder (Friedrich-Alexander-Universität) hat bereits IT-Sicherheitsfragen im Gesundheitsausschuss beantwortet, Prof. Esfandiar Mohammadi (Universität zu Lübeck) leitet das vom Bund geförderte Forschungsprojekt AnoMed, das sich mit dem sicheren Umgang mit medizinischen Daten befasst und Prof. Pascal Berrang (University of Birmingham) forscht ebenfalls zur Sicherheit medizinischer Daten, Blockchain und KI.

(mack)