Sicherer Umgang mit medizinischen Daten: AnoMed geht in die zweite Runde
Es gibt verschiedene Methoden für einen sicheren Umgang mit Gesundheitsdaten – manche sind jedoch noch zu rechenintensiv, andere noch zu unsicher.
(Bild: metamorworks/Shutterstock.com)
„Die klassischen Anonymisierungsverfahren haben nicht funktioniert“, sagt Prof. Esfandiar Mohammadi, Leiter des Projekts „AnoMed“, auf einer Veranstaltung in Berlin. Beim Projekt geht es darum, Gesundheitsdaten für Forschung und KI-Entwicklung zu nutzen, ohne die Privatsphäre von Patientinnen und Patienten zu gefährden. Wie das gelingen soll, zeigten die beteiligten Teams beim Auftakttreffen für die Fortführung des vom Bundesministerium für Forschung, Technologie und Raumfahrt (BMFTR) geförderten Projekts „AnoMed 2“.
Für Mohammadi ist das nicht nur eine technische, sondern auch eine gesellschaftliche Frage. „Die Privatsphäre betrifft nicht nur die eigene Person, sondern ist auch noch eine Frage einer freiheitlichen Demokratie“, sagte er gegenüber heise online. „Wenn wir alle gläserne Menschen werden und irgendwelche Unternehmen oder Regierungen ein perfektes Persönlichkeitsprofil von jeder Person haben, dann können sie gezielt Massen an Wählerinnen und Wähler manipulieren.“ Genau deshalb müsse die Forschung jetzt einspringen und Verfahren entwickeln, wie man besonders sensible Daten nutzen könne, ohne dass man die Privatsphäre von Patientinnen und Patienten beeinflusse oder gefährde.
Videos by heise
Kritischer Blick von auĂźen: Anonymisierung in der Praxis
Wie weit die Forschung allerdings noch davon entfernt ist, in der medizinischen Praxis wirklich anzukommen, machte ein Vortrag von Prof. Dr. Fabian Prasser von der Charité Berlin deutlich. Prasser forsche seit mehr als zehn Jahren daran, Gesundheitsdaten für die medizinische Forschung zugänglicher zu machen und ziehe eine ernüchternde Zwischenbilanz: Trotz jahrzehntelanger Forschung, umfangreicher Literatur und zahlreicher Konferenzen hätten Privacy-Enhancing Technologies (PETs) den Weg in den Alltag bisher kaum gefunden. „Es gibt so viele Ideen, aber wenn man schaut, was wirklich genutzt wird, ist das ein winziger Bruchteil aller wissenschaftlichen Ansätze“, sagte Prasser.
Als Ursache nenne er nicht mangelnde Forschungsqualität, sondern strukturelle Hürden: hohe Infrastrukturkosten, fehlende Expertise in datenproduzierenden Einrichtungen wie Krankenhäusern, Rechtsunsicherheiten sowie die eingeschränkte Flexibilität vieler Verfahren. Der unmittelbare Nutzen für datengebende Institutionen überwiege schlicht oft nicht den Aufwand.
Hinzu komme ein methodisches Kernproblem, das das AnoMed-Konsortium umtreibe: Anonymisierung erkaufe sich Datenschutz immer auf Kosten von Informationsgehalt. Prasser illustrierte das an einem konkreten Beispiel aus der Coronakrise, bei dem sein Team Patientenregisterdaten anonymisiert veröffentlichte. Dabei zeigte sich, dass die aus den anonymisierten Daten berechnete Fallsterblichkeitsrate von der tatsächlichen um bis zu zehn Prozent abwich, was für viele klinische Fragestellungen nicht tolerierbar sei. Eine weitere Studie zur Reproduzierbarkeit medizinischer Forschungsergebnisse bestätigte, dass keines der getesteten Anonymisierungsverfahren alle Ergebnisse der Originalstudie vollständig replizieren konnte.
Anonymisierung funktioniere bisher gut für Machbarkeitsprüfungen, explorative Analysen, Hypothesengenerierung, Software-Tests und als Ergänzung beim Training von KI-Modellen – für primäre klinische Studien mit klaren Evidenzanforderungen tauge sie dagegen nicht als Ersatz für Originaldaten. Die Lösung sehe Prasser in einer abgestuften Datennutzung, die verschiedene Zugangsebenen kombiniere – ein Ansatz, den er am Beispiel der Medizininformatik-Initiative skizziert habe, wo föderierte Auswertungen, differenzielle Privatsphäre und Pseudonymisierung ineinandergriffen.
Für die Zukunft setze Prasser auf den Europäischen Gesundheitsdatenraum (EHDS) und sichere Verarbeitungsumgebungen, in denen Forscher nicht die Daten erhielten, sondern geschützten Zugang zur Dateninfrastruktur bekämen. „Dass das jetzt solch eine prominente Rolle im EHDS spielt, sagt auch etwas über die Hürden aus, die andere Verfahren in der Praxis hatten.“
29 Millionen Euro fĂĽr ein neues KI-Rechenzentrum
Das Ziel von AnoMed ist auch eine Frage der Infrastruktur. Die Universität zu Lübeck hat im Rahmen des Projekts ein neues KI-Rechenzentrum eingeweiht, das die Forschungsarbeit künftig mit deutlich mehr Rechenpower unterlegen soll. Das Bundesforschungsministerium fördert den Aufbau mit 29 Millionen Euro. Auf rund 400 Quadratmetern entsteht ein GPU-Cluster auf Basis der neuesten wassergekühlten NVIDIA-Server mit einer erwarteten Rechenleistung von über 3.000 PetaFlops – genug, um sehr große KI-Modelle unter Hochsicherheitsbedingungen zu trainieren.
Digitale Souveränität
Als öffentliche Einrichtung soll das Rechenzentrum Partnern wie Krankenhäusern ermöglichen, für die Forschung sensible Daten lokal zu verarbeiten – ohne Abhängigkeit von kommerziellen Cloud-Diensten. „Im Sinne der digitalen Souveränität bauen wir ein Rechenzentrum, das groß genug ist, um agentische Systeme laufen zu lassen und Machine-Learning-Forschung zu betreiben“, erklärte Mohammadi gegenüber heise online. „Wir werden damit lokale Dienste für unsere Forschung und unsere Forschungspartner, wie Krankenhäuser, anbieten. Im Gegensatz zu großen Cloud-Anbietern sind unsere Verpflichtungen klar: Wir sind eine öffentliche Institution und haben den Auftrag, öffentliche Forschung voranzubringen."
Zusammen mit den Forschungsprojekten der ersten und zweiten Phase fördert das BMFTR das Forschungszentrum AnoMed damit mit rund 46 Millionen Euro.
Zahlreiche Projekte
In der zweiten Förderungsphase werden zahlreiche Projekte weiterverfolgt, die von kryptografischen Grundlagen bis zu konkreten medizinischen Anwendungsfeldern reichen. Vorgestellt wurde dabei unter anderem der in AnoMed 1 entwickelte Algorithmus „DP-Hype“, eine Hyperparameter-Suche, die privatsphärewahrend und föderiert funktioniere. Die Besonderheit liege im zugrunde liegenden kryptografischen Protokoll: Clients könnten damit alle Berechnungen lokal durchführen und anschließend nur Statistiken aggregieren. In AnoMed 2 solle DP-Hype in das Open-Source-Framework für Federated Learning „Flower“ integriert werden, damit die Methode einfacher nutzbar wird.
Wer Modelle trainieren wolle, müsse aber nicht nur deren Parameter im Griff haben, sondern auch die Daten selbst schützen. Dafür verfolge AnoMed gleich zwei Wege: Einerseits solle Machine Learning direkt auf verschlüsselten Daten möglich werden. Vollständig homomorphe Verschlüsselung gelte zwar als Königsweg, sei aber noch zu rechenintensiv für den Alltag, weshalb das Projekt alternative kryptografische Ansätze untersuche. Andererseits soll sensibles Material erst gar nicht in seiner Originalform weitergegeben werden müssen: Synthetische Daten sollen die Eigenschaften sensibler Originaldaten widerspiegeln, ohne Rückschlüsse auf Einzelpersonen zu erlauben. Gleichzeitig würden gezielt Angriffe auf diese Syntheseverfahren entwickelt, um Schwachstellen zu finden, bevor es andere täten.
Personengruppen identifizieren
Wie real diese Gefahr ist, zeigt die Arbeit von Jorge Andresen, ebenfalls Forscher an der Universität Lübeck. Anhand eines simulierten Gesundheitsdatensatzes mit vier Millionen Einträgen konnte er zeigen, dass sich aus aggregierten Statistiken individuelle Datensätze rekonstruieren lassen und damit konkrete Personengruppen aus einer vermeintlich anonymen Gesamtpopulation identifizierbar werden. Damit verknüpft ist auch die Kooperation mit dem Bundesinstitut für Arzneimittel und Medizinprodukte, das beim Forschungsdatenzentrum (FDZ) Gesundheit hochsensible Abrechnungsdaten lagert und künftig robustere Wege zur sicheren Datenweitergabe erproben möchte.
Das Projekt MammothDP kombiniert deshalb differenzielle Privatsphäre, Constant-Time-Implementierungen, Trusted Execution Environments und rollenbasierte Zugriffskontrollen zu einem ganzheitlichen Schutzsystem. Die Gruppe um Prof. Thomas Eisenbarth untersuche darüber hinaus, wie KI-Systeme durch Fehlinjektion, etwa über die Sicherheitslücke Rowhammer oder Voltage Glitching oder über Mikroarchitektur-Seitenkanäle angreifbar seien.
Sicherheit beginne eben nicht erst beim Algorithmus, sondern schon beim Chip. Das Deutsche Forschungszentrum für Künstliche Intelligenz wiederum arbeite daran, Eingabedaten so aufzubereiten, dass Klassifikatoren zuverlässiger funktionieren. Auf der medizinischen Anwendungsseite stehen generative Modelle für synthetische EKG-Daten im Fokus, etwa mit Blick auf Vorhofflimmern.
Anonymisierung bei Bildern
Wie vielschichtig echte Anonymisierung, beziehungsweise die Bewahrung der Privatsphäre, sein kann, zeigte auch das Projekt rund um Prof. Thomas Martinetz vom Institut für Neuro- und Bioinformatik der Uni Lübeck. Das Team arbeitet daran, Gesichtsbilder so zu bearbeiten, dass sie keine Rückschlüsse auf das Geschlecht mehr zulassen, ohne dass die Veränderung sichtbar ist. „Einzelne Pixel zu verändern, ist einfach. Die Herausforderung ist es, sensible Informationen ganzheitlich zu entfernen und dabei alles andere so weit wie möglich zu erhalten, damit die Daten für die Forschung noch nutzbar bleiben“, so Martinetz.
Begleitet werden alle technischen Vorhaben durch rechtliche und regulatorische Analysen sowie Studien zur Nutzerakzeptanz anonymisierter Gesundheitsstatistiken. Denn ob neue Verfahren am Ende angenommen wĂĽrden, sei genauso entscheidend wie und ob sie funktionierten.
Brettspiele fĂĽr die Wissenschaftskommunikation
Dass Datenschutz und Privatsphäre keine Themen seien, die sich auf Fachkonferenzen beschränken müssen, zeigt eine andere Initiative aus dem AnoMed-Umfeld. Der international anerkannte Privacy-Forscher Dr. Sebastian Meiser habe bereits das Lernbrettspiel „Spurensuche in der KI – Privatsphäreangriffe auf neuronale Netze“ entwickelt, das unter anomed.de/anomed-brettspiel auch online spielbar sei.Nun folge ein zweites Spiel, bei dem es um die Frage gehe, was hinter dem mathematischen Konzept der differenziellen Privatsphäre stecke. Im Spiel, das auf der Randomized-Response-Technik basiere, ziehe jede teilnehmende Person eine Personenkarte mit fiktiven Eigenschaften wie Beruf, Hobby oder ob man schnarche.
Wer eine Frage beantworten solle, entscheide zunächst, wie viel Privatsphäre er dabei aufgeben möchte, und ziehe eine Karte aus einem Stapel mit einem bestimmten Epsilon-Wert. Je kleiner das Epsilon, desto weniger lasse sich aus der Antwort schließen. Je größer das Epsilon, desto mehr gebe man preis. Am Ende versuchten alle Mitspielenden, ihre Tischnachbarn anhand der gesammelten Antworten zu de-anonymisieren.
(mack)