Krankendaten: Wie sicher sind anonymisierte Daten für die Forschung?

Krankheitskombinationen sind oft einzigartig – Anonymisierung von Gesundheitsdaten daher besonders komplex. Ein Interview über Rekonstruktionsrisiken.

vorlesen Druckansicht 5 Kommentare lesen
Graphen, die Gesundheitsdaten darstellen sollen. In der Mitte eine Kreuz, über dem eine Hand schwebt

(Bild: PopTika/Shutterstock.com)

Update
Lesezeit: 8 Min.
close notice

This article is also available in English. It was translated with technical assistance and editorially reviewed before publication.

Die elektronische Patientenakte (ePA) und der geplante European Health Data Space (EHDS) sollen medizinische Informationen europaweit über nationale Kontaktstellen für Forschung und Versorgung nutzbar machen. Die Vision: mehr Wissen über Krankheitsverläufe, bessere Therapien, schnellere Forschung. Dazu werden Daten beim Forschungsdatenzentrum Gesundheit gesammelt, das beim Bundesinstitut für Arzneimittel und Medizinprodukte (BfArM) angesiedelt ist. Perspektivisch sollen mehr Daten hinzukommen, beispielsweise aus medizinischen Registern und aus den elektronischen Patientenakten der gesetzlich Versicherten.

Derzeit liegen beim BfArM seit 2022 die Abrechnungsdaten fast aller gesetzlich Versicherten. Aktuell sind laut BfArM bereits 36 Anträge auf Zugang zu Forschungsdaten eingegangen. Um den Forschungsprozess zu beschleunigen, stellt das BfArM auf Github und Zenodo neben der Datensatzbeschreibung auch Datenmodelle, Testdaten und Anleitungen zur Verfügung.

Das BfArM arbeitet aktuell mit Forschenden im Rahmen des Projekts „Anonymisierung für medizinische Anwendungen“ (Anomed 2) an mehr Datenschutz. „Ziel des FDZ Gesundheit in diesem Vorhaben ist es, zusammen mit den Projektpartnern innovative Ansätze für eine weiter verbesserte Anonymisierung von Gesundheitsdaten zu entwickeln – unter anderem durch den Einsatz synthetischer Daten und Differential Privacy Verfahren“, heißt es vom BfArM Ende Oktober. Ob erste Unternehmen inzwischen bereits Zugang zu den Forschungsdaten erhalten haben, ist unklar. Eine Frage dazu hat das BfArM bisher noch nicht beantwortet.

Jorge Andresen und Esfandiar Mohammadi vom Institut für IT-Sicherheit der Universität zu Lübeck, die ebenfalls an dem Projekt beteiligt ist, haben untersucht, wie leicht sich aus vermeintlich anonymen Gesundheitsstatistiken wieder individuelle Informationen rekonstruieren lassen. Die beiden haben ihre noch nicht veröffentlichte Studie „Reconstructing Health Data from Published Statistics“ auf der diesjährigen AnoSiDat-Konferenz vorgestellt.

Jorge Andresen hat sich in seiner Masterarbeit mit der Rekonstruktion von Gesundheitsdaten aus veröffentlichten Quellen befasst.

(Bild: Jorge Andresen)

Sie simulierten ein riesiges Gesundheitsdatenset, führten Rekonstruktionsangriffe mit Algorithmen durch – und fanden heraus: Auch aggregierte Daten sind nicht automatisch sicher. Wir haben mit Jorge Andresen über die Hintergründe der Forschung gesprochen.

Worum ging es Ihnen bei Ihrer Arbeit?

Wir wollten zeigen, dass auch scheinbar harmlose Gesundheitsstatistiken ein Datenschutzrisiko sein können. Die elektronische Patientenakte und der EHDS sollen große Mengen an anonymisierten Daten für die Forschung bereitstellen. Die Idee ist natürlich sinnvoll – aber ohne zusätzliche Schutzmechanismen kann man aus aggregierten Ergebnissen wieder Details über einzelne Personen ableiten. Das wurde schon beim US-Zensus beobachtet, und wir konnten das nun auf medizinische Daten übertragen.

Videos by heise

Ich habe mich gefragt: Was müssen wir tun, damit die Daten sicher bleiben? Kann man sie einfach so verwenden, um einfache Anfragen zu stellen, zum Beispiel: Wie viele Menschen haben Darmkrebs? Wie viele davon haben zusätzlich Lungenkrebs? Das sind ja zunächst nur statistische Zusammenhänge, die nichts über einzelne Personen aussagen. Aber ähnliche Ansätze wurden beim US-Zensus getestet – und dort hat man festgestellt, dass es doch möglich war, Personen aus angeblich anonymen Statistiken zu rekonstruieren. Das will man natürlich vermeiden, besonders bei Gesundheitsdaten.

Wie haben Sie die Angriffe nachgestellt?

Wir haben ein synthetisches Gesundheitsdatenset erstellt – auf Basis öffentlich verfügbarer Daten des RKI, von Krankenkassen und mehr als 100 medizinischen Studien. Über ein sogenanntes Bayes‘sches Netzwerk konnten wir daraus vier Millionen faktenbasierte, aber fiktive Datensätze generieren. Jeder Datensatz enthält 44 Merkmale – Alter, verschiedene Herz-Kreislauf-Erkrankungen, Krebserkrankungen usw. Dadurch konnten wir eine realitätsnahe Bevölkerung simulieren.

Wie sah dann der konkrete Angriff aus?

Wir haben die sogenannte Rap-Rank-Reconstruction-Attack verwendet – ein Angriff, der ursprünglich für den US-Zensus entwickelt wurde. Der Angriff trainiert mehrere KI-Modelle darauf, aus aggregierten Ergebnissen – etwa „48,8 Prozent sind männlich“ oder „40 Prozent der Rauchenden haben Herzerkrankungen“ – wieder einen plausiblen Datensatz zu rekonstruieren. Das ist im Prinzip Puzzlearbeit: Man kennt viele Einzelstatistiken und versucht, aus ihnen die Originalverteilung zu erraten.

Und wie gut funktioniert das?

Erstaunlich gut. Wir konnten etwa 6 Prozent aller Datensätze korrekt rekonstruieren, von denen 90 Prozent korrekt sind. Bei einer angenommenen Zielpopulation von 73 Millionen Datensätzen wären mehr als drei Millionen Personen betroffen. Besonders besorgniserregend ist, dass darunter viele einzigartige Datensätze sind – Kombinationen von Krankheiten und Merkmalen, die es nur einmal im Datensatz gibt. Genau diese wären im echten Leben am leichtesten identifizierbar.

In Ihrer Studie zeigen Sie, dass Angriffe auch dann erfolgreich bleiben, wenn nur ein Teil der Statistiken bekannt ist. Wie erklären Sie das?

Das liegt daran, dass die statistischen Zusammenhänge stark miteinander korrelieren. Schon wenn man nur Verteilungen und einige Kombinationen kennt, kann ein Algorithmus erstaunlich viele Schlussfolgerungen ziehen. In unseren Experimenten konnten Angreifer selbst bei reduziertem Wissen immer noch rund ein Prozent der Daten rekonstruieren – das ist nicht trivial.

Sie ordnen keine Namen zu, aber es bleibt das Risiko, dass sich Personen identifizieren lassen?

Ja, genau. Mein Angriff weist keine Namen zu. Aber die Rekonstruktion solcher individueller Kombinationen wäre ein weiterer Schritt dahin. Wenn man dann zusätzlich öffentlich verfügbare Informationen oder Leaks hat, könnte man theoretisch Namen zuordnen – wie es etwa beim US-Zensus passiert ist.

Das klingt, als seien Aggregationen also kein ausreichender Schutzmechanismus?

Richtig. Nur Ergebnisse zu veröffentlichen schützt nicht automatisch. Das ist die Hauptschlussfolgerung unserer Studie. Es braucht zusätzliche mathematische Schutzmaßnahmen – beispielsweise Differential Privacy, bei der gezielt statistisches Rauschen in die Daten eingefügt wird, um Rückschlüsse auf Einzelpersonen zu verhindern und was die Statistiken nur minimal verändert.

Welche Rolle spielt dabei der EHDS?

Der EHDS soll auf europäischer Ebene genau solche Forschungszugriffe ermöglichen. Wenn man das Thema Datenschutz nicht von Anfang an sauber löst, könnten solche Rekonstruktionsangriffe auch auf reale Gesundheitsdaten anwendbar werden. Das wäre fatal, weil Gesundheitsdaten hochsensibel sind. Eine der Herausforderungen dürfte auch sein, dass sich Daten über Jahrzehnte ansammeln.

Haben Sie diesen Aspekt in Ihre Simulation einbezogen?

Noch nicht vollständig. Bisher betrachten wir die statische Perspektive. Aber klar: Wenn Daten über Jahrzehnte gesammelt werden und neue Faktoren hinzukommen, steigt die Gefahr von Re-Identifikation erheblich. Eine zeitlich erweiterte Analyse ist daher ein logischer nächster Schritt.

Wären solche Angriffe auch für andere Datenquellen relevant, etwa Sozial- oder Bildungsdaten?

Überall dort, wo aggregierte Statistiken mit vielen Querverknüpfungen veröffentlicht werden, bestehen Risiken. Für unseren Hauptangriff haben wir etwa 2400 verschiedene Anfragen an den Datensatz gebraucht. Wie gut der Angriff in anderen Bereichen am Ende funktioniert, hängt auch von der Komplexität des Datensatzes ab. Daher kann man pauschal nicht sagen, dass ein Angriff in anderen Bereichen genauso gut funktioniert.

Was müsste Ihrer Meinung nach am dringendsten passieren, bevor Daten aus der ePA, dem Forschungsdatenzentrum Gesundheit und dem EHDS tatsächlich für Forschung freigegeben werden?

Zum einen muss klar sein, wie „anonym“ definiert ist. Das Statistische Bundesamt hat für sich Definitionen festgelegt, die aber bei vielen noch nicht angekommen sind. Die Schutzmechanismen selbst sollten eher für den jeweiligen Datensatz evaluiert werden. Zum anderen braucht es eine institutionelle Kontrolle darüber, welche Anfragen auf die Daten gestellt werden dürfen. Im Moment sind das in vielen EU-Entwürfen noch sehr offene Konzepte. Auch in Deutschland wird zum Beispiel beim Forschungsdatenzentrum Gesundheit noch geforscht, wie man die Daten der ePA später schützen kann. Aber genau diese Klarheit würde das Vertrauen der Bevölkerung stärken.

Was sind Ihre Pläne?

Wir planen, verschiedene Datenschutztechnologien gegeneinander zu testen, um zu zeigen, welche den besten Schutz bei gleichzeitig hohem Forschungsnutzen bieten. Ziel ist es, dass Datenschutz und Forschung sich nicht gegenseitig ausschließen, sondern technologisch zusammen funktionieren können.

Es geht nicht darum, Forschung zu behindern, sondern Risiken realistisch zu verstehen. Nur wer weiß, wo Schwachstellen liegen, kann sie sicher schließen. Am Ende ist es natürlich wünschenswert, eine Lösung zu finden, mit der alle glücklich werden.

Update

Korrigiert, dass etwa 6 Prozent aller Datensätze rekonstruierbar waren, von denen 90 Prozent korrekt sind.

(mack)