EHDS, E-Patientenakte und Co: Schutz von Gesundheitsdaten aus rechtlicher Sicht

Mit dem europäischen Gesundheitsdatenraum erhoffen sich Forscher Erkenntnisse. Das stellt besondere Anforderungen an den Datenschutz. Eine rechtliche Sicht.

In Pocket speichern vorlesen Druckansicht 6 Kommentare lesen
Science,Research,As,A,Concept,For,Presentation, EHDS, eHealth, Gesundheitsdaten

(Bild: Tex vector/Shutterstock.com)

Lesezeit: 17 Min.
Von
  • Pauline Engels
  • Dr. Philipp Siedenburg
Inhaltsverzeichnis

Gesundheitsdaten sind für die medizinische Forschung und die Versorgung im Gesundheitsbereich hilfreich. Immer mehr Menschen nutzen Gesundheits-Apps, die verschiedenste Daten über die Körperfunktionen ihrer Nutzer generieren. Doch auch die Forschung erhofft sich Vorteile von großen, durch den europäischen Gesundheitsdatenraum (EHDS) verfügbaren Datenmengen. Bei dem Versuch, im Spannungsfeld Forschung und Datenschutz eine Balance herzustellen, spielen Anonymisierung und Pseudonymisierung von Gesundheitsdaten eine zentrale Rolle. Durch sie wird die (Wieder-)Herstellung des Personenbezugs von Daten erschwert oder kann womöglich sogar ausgeschlossen werden. Die besondere Schwierigkeit dabei: die Nutzbarkeit und Aussagekraft der Daten müssen gleichzeitig bewahrt bleiben.

Gesundheitsdaten zählen zu den besonders geschützten Datenkategorien nach Art. 9 Abs. 1 der Datenschutz-Grundverordnung (DSGVO), weshalb ihre Verarbeitung zusätzlichen Anforderungen unterliegt. Der besonderen Sensibilität der Daten tritt das rechtliche Erfordernis gegenüber, ihren Personenbezug zu erschweren, oder aber mittels Anonymisierungstechniken ganz zu entfernen. Die Anonymisierung muss dabei im Gesundheitsbereich besonders hohen Anforderungen genügen.

So wird seitens der Forscherinnen und Forscher oftmals der Vorwurf laut, die datenschutzrechtlichen Vorgaben legten der Wissenschafts- und Forschungsfreiheit Steine in den Weg. Zum einen beklagen sie die Ungenauigkeit der gesetzlichen Vorgaben – ohne genaue Handlungsleitlinien, wie Anonymität erreicht werden kann, tappen Forscher und andere beteiligte Akteure häufig im Dunkeln. Selbst wenn der Wille zur datenschutzkonformen Forschung da ist, ist es daher fast unvermeidlich, einen rechtlichen Graubereich zu betreten.

Dem gegenüber steht eine in der Bevölkerung recht ausgeprägte Bereitschaft gegenüber, Daten zu Forschungszwecken zu teilen, wie Studien des Forschungsinstituts forsa und des Hasso-Plattner-Instituts belegten. Ein Großteil der Menschen ist demnach bereit, ihre Daten zu medizinischen und Forschungszwecken bereitzustellen, und das sogar über einen Zeitraum von mehreren Jahren, wenn nicht sogar zeitlich unbefristet. Zu konstatieren ist eine Diskrepanz von Unterstützungswillen der Bevölkerung und rechtlicher Hürden für die Forschung mit Gesundheitsdaten.

Hieraus ist nicht der Schluss zu ziehen, der Forschungsfreiheit ohne Weiteres und pauschal den Vorrang vor dem Schutz medizinischer Daten einzuräumen. Daher reicht die Debatte um Datenschutz versus Forschungsfreiheit bis in die Anfangszeit des Datenschutzrechts zurück. Hier trat erstmals das Problem auf, dass eine einwilligungsbasierte Verarbeitung von Daten für die Forschung in vielen Fällen nicht zweckdienlich ist, da der Verarbeitungszweck anfangs noch nicht feststeht oder im Zuge der Forschungsarbeit Veränderungen erfährt. Während die Gesetzgebung der Anfangsjahre des Datenschutzes die Forschung mit Gesundheitsdaten weitgehend ausbremste, ist sie in den letzten Jahren deutlich forschungsfreundlicher geworden.

Nicht nur die DSGVO, sondern auch das nationale Bundesdatenschutzgesetz (BDSG) enthält Privilegierungen für die Verarbeitung von Daten zu wissenschaftlichen Forschungszwecken. So normiert etwa Art. 5 Abs. 1 lit. b DSGVO die Fiktion, dass es mit dem ursprünglichen Verarbeitungszweck nicht unvereinbar ist, wenn die erhobenen Daten später zu wissenschaftlichen Forschungszwecken weiterverarbeitet werden. Die Norm lockert damit den Zweckbindungsgrundsatz für den Forschungsbereich. Auch wird durch Art. 9 Abs. 2 lit. j DSGVO den Mitgliedsstaaten gestattet, die Verarbeitung von sensiblen Gesundheitsdaten zu wissenschaftlichen Forschungszwecken durch nationale Ausnahmeregelungen zu ermöglichen.

Im nationalen Recht lässt § 27 Abs. 1 BDSG eine Verarbeitung zu Forschungszwecken zu, wenn die Interessen des Verantwortlichen das Interesse an einem Ausschluss der Verarbeitung erheblich überwiegen. Schon dies zeigt, dass Forschung keinesfalls pauschal oder vollständig vom geltenden Datenschutzrecht verhindert wird. Gleichwohl gibt es substanzielle gesetzliche Hürden, die Forschenden auf dem Weg zu wissenschaftlicher Erkenntnis im Gesundheitswesen nehmen müssen.

Die bedeutendsten Maßnahmen, um das Schutzniveau bei der – in der Regel – automatisierten Verarbeitung personenbezogener (Gesundheits-)Daten zu erhöhen, sind die Anonymisierung, Pseudonymisierung und Verschlüsselung. Dabei wird lediglich bei der Anonymisierung ein Rückbezug von Daten auf bestimmte Personen unmöglich gemacht, sodass die DSGVO mangels Personenbezugs der Daten keine Anwendung mehr findet. In unterschiedlichen Verfahren der Anonymisierung (hierzu unten) werden Identifikationsmerkmale personenbezogener Daten unwiederbringlich gelöscht oder verfremdet – mit der Folge, dass es der datenverarbeitenden Person oder Organisation nicht mehr mit erwartbarem Aufwand möglich ist, einzelne Personen aus den Daten zu identifizieren.

Bei der Verschlüsselung, bei der Datensätze in unleserliche Zeichenfolgen übersetzt werden, bleibt die Wiederherstellung des Personenbezugs weiterhin möglich, bedingt durch die Verfügung über den erforderlichen Schlüssel. Damit weist die Verschlüsselung eine große Ähnlichkeit zur Pseudonymisierung auf, bei der ebenfalls die Rekonstruktion des Personenbezugs mittels "Schlüssels" bzw. mittels Zuordnungsmethode von beliebigen Pseudonymen und Datensätzen möglich ist (hierzu ebenfalls unten). Sowohl nach Verschlüsselung als auch nach Pseudonymisierung fallen die Daten deshalb weiter in den Anwendungsbereich der DSGVO.

Auf den Begriff der Pseudonymisierung nimmt die DSGVO in der Begriffsdefinition in Art. 4 Nr. 5 DSGVO direkt Bezug. Unter Pseudonymisierung ist laut DSGVO "die Verarbeitung personenbezogener Daten in einer Weise, dass die personenbezogenen Daten ohne Hinzuziehung zusätzlicher Informationen nicht mehr einer spezifischen betroffenen Person zugeordnet werden können, sofern diese zusätzlichen Informationen gesondert aufbewahrt werden und technischen und organisatorischen Maßnahmen unterliegen, die gewährleisten, dass die personenbezogenen Daten nicht einer identifizierten oder identifizierbaren natürlichen Person zugewiesen werden" zu verstehen.

Voraussetzung der Pseudonymisierung ist damit zum einen, dass der Personenbezug der Daten entfernt wird und zum anderen, dass es mithilfe eines separat aufbewahrten Datensets möglich ist, den Personenbezug wiederherzustellen. Die Pseudonymisierung selbst kann mittels verschiedener Verfahren wie der Listenerstellung oder im Rahmen des Berechnungsverfahrens erfolgen. Um das stets mitzudenkende Restrisiko zu minimieren, dass der Personenbezug doch wiederhergestellt wird, sollten in den Pseudonymisierungsprozess verschiedene, voneinander unabhängige Stellen eingebunden werden.

In der Praxis wird bei der Pseudonymisierung häufig das Hashing-Verfahren eingesetzt, bei dem bestimmte Werte durch Zeichenketten ersetzt werden. Auch Verschlüsselungstechniken, die aus einem Klartext mittels eines kryptografischen Algorithmus‘ einen verschlüsselten Wert bilden, eignen sich. Alternativ lassen sich Pseudonyme zufallsgeneriert erstellen und in Tabellen speichern. Während bei der Verschlüsselung der Ursprungswert anhand des Schlüssels problemlos rückberechnet werden kann, ist das Verfahren des Hashings nicht ohne Weiteres umkehrbar. Mit Blick auf die Verfügbarkeit von Daten ist gerade im Gesundheitswesen ein umfassendes und technisch zuverlässiges Zugriffs- und Berechtigungskonzept wichtig. Die Pseudonymisierung kann in unterschiedlichen Abstufungen erfolgen, sodass das Ergebnis sowohl eine starke als auch eine schwache Pseudonymisierung sein kann. Eine starke Pseudonymisierung ist vor allem dann erforderlich, wenn besondere Datenkategorien nach Art. 9 DSGVO verarbeitet werden oder die Daten einem erhöhten Risiko ausgesetzt sind.

Das Verfahren der Pseudonymisierung befreit hingegen nicht von der Erfüllung der DSGVO-Vorgaben. So kann die Pseudonymisierung sich zugunsten der berechtigten Interessen des Verantwortlichen bei der Datenverarbeitung auswirken. Denn je sicherer die Pseudonymisierung, desto eher überwiegen die Interessen des Unternehmens bzw. des Verantwortlichen, da die betroffenen Personen datenschutzrechtlich besser geschützt sind. Des Weiteren sinkt die Bedrohung der Datenverarbeitungsprozesse durch Angriffe auf die IT-Infrastruktur der datenverarbeitenden Stellen, weil pseudonyme Daten nur noch durch Herausgreifen, Verknüpfen oder die sogenannte Inferenz nutzbar sind, bzw. nur durch zusätzlichen Aufwand für Angreifer von Wert sein können. Beim Herausgreifen isolieren Angreiferinnen und Angreifer Daten, die sich auf einzelne Personen beziehen, oder versuchen, mehrere Daten zu kombinieren und daraus Rückschlüsse zu ziehen. Bei der Verknüpfung werden mehrere Datensätze zu diesem Zwecke verknüpft, um Korrelationen aufzudecken. Die Inferenz beschreibt das Ermitteln personenbezogener Informationen durch logische Schlussfolgerungen, die sich aus der Kombination bestimmter Datensätze erheben. Sind diese Angriffsrisiken den Verantwortlichen bekannt, ist es leichter, das passende Pseudonymisierungsverfahren auszuwählen und so möglichst viele der Re-Identifizierungsrisiken auszuschließen.

Im Gesetzestext der DSGVO ist die Anonymisierung streng genommen gar nicht zu finden, nur in Erwägungsgrund 26 DSGVO wird sie einmal ausdrücklich genannt. Für eine rechtliche Definition muss daher die Open-Data-Richtlinie 2019/1024 herangezogen werden: "Anonyme Informationen sind Informationen, die sich nicht auf eine identifizierte oder identifizierbare natürliche Person oder auf personenbezogene Daten beziehen, die in einer Weise anonymisiert wurden, dass die betroffene Person nicht oder nicht mehr identifizierbar ist." Entscheidend ist, dass die konkrete Person, über die die Informationen Aufschluss geben, nicht mehr ermittelt werden kann beziehungsweise keine Rückschlüsse mehr auf ihre Identität mehr gezogen werden können. Insofern verlagert das Datenschutzrecht seinen Schutz auf den Moment vor, in dem die Identifizierung natürlicher Personen noch nicht stattgefunden hat, eine Wiederherstellung des Personenbezugs aber möglich wäre. Kann das Risiko einer Reidentifizierung ganz beseitigt werden, fällt das entsprechende Datum nicht mehr in den Anwendungsbereich der DSGVO, da es keine Person mehr gibt, die datenschutzrechtlich geschützt werden müsste.

Klärungsbedarf besteht allerdings weiterhin bezüglich der Frage, wann dieses Restrisiko der Reidentifizierung ausgeschlossen ist. Dabei ist eine Person nach Ansicht des Europäischen Gerichtshofs (EuGH, Urteil vom 19.10.2016, C-582-14) schon dann bestimmbar im Sinne der DSGVO, wenn nur indirekt Rückschlüsse auf ihre Identität gezogen werden können. In dem sogenannten Breyer-Fall urteilte der EuGH, dass sogar dynamische IP-Adressen, also solche, die keine unmittelbaren Informationen über denjenigen enthalten, der auf die Website zugreift, für einen Webseitenbetreiber ein personenbezogenes Datum sein können. Dabei ist unerheblich, dass die für die Herstellung des Personenbezugs erforderlichen Zusatzinformationen nicht beim Diensteanbieter selbst, sondern beim Internetzugangsanbieter vorliegen – denn Ersterer hat unter gewissen Umständen die Möglichkeit, die Verknüpfung mit den Daten beim Internetzugangsanbieter einzufordern.

Hierin besteht das nach Erwägungsgrund 26 DSGVO Maßgebliche: "Um festzustellen, ob eine natürliche Person identifizierbar ist, sollten alle Mittel berücksichtigt werden, die vom Verantwortlichen oder einer anderen Person nach allgemeinem Ermessen wahrscheinlich genutzt werden, um die natürliche Person direkt oder indirekt zu identifizieren." Die Anonymisierung setzt folglich nicht voraus, dass die Identifizierung objektiv, für jedermann, unmöglich ist – ausreichend ist vielmehr die sogenannte "faktische Anonymität". Auch an diese werden jedoch hohe Anforderungen gestellt. Denn laut dem Urteil ist es für eine mögliche Re-Identifizierung nicht notwendig, "dass sich alle zur Identifizierung der betreffenden Person erforderlichen Informationen in den Händen einer einzigen Person befinden".

Für die Pseudonymisierung ist es ausreichend, Identitäts- von Informationsdaten zu trennen. Die Zuordnung der pseudonymisierten Daten bleibt mithilfe des dazugehörigen Schlüssels also möglich, die Daten bleiben weiterhin personenbezogene Daten. Anders könnte die Situation zu beurteilen sein, in der die zur Re-Identifizierung erforderlichen Daten nicht beim Verantwortlichen, sondern bei einer dritten Stelle aufbewahrt werden, und Ersterer lediglich über die pseudonymisierten Daten ohne eigene Identifizierungsmöglichkeit verfügt. Ist dieses Zusatzwissen eines Dritten für den Verantwortlichen "nicht erreichbar", haben also beide Stellen keinerlei Bezug zueinander, könnte sich das wie eine faktische Anonymisierung auswirken. Dies wird zum Teil mit dem Argument vertreten, dass der Personenbezug auch praktisch herstellbar sein müsse, um von personenbezogenen Daten ausgehen zu können.

Teilweise wird sogar verlangt, dass zusätzlich zur bloßen praktischen Möglichkeit auch noch die subjektive Absicht des Verantwortlichen hinzutreten müsse, damit der Anwendungsbereich der DSGVO eröffnet sei. Dieser weiten Auslegung der Anonymisierung wird von anderer Seite widersprochen mit dem Argument, ein Personenbezug liege immer dann vor, wenn Zusatzwissen bei einer dritten Stelle verortet sei – ganz gleich, unter welchen Umständen und von wem darauf zugegriffen werden könne. Wie sich der EuGH in diesem Streit positioniert, wurde oben bereits ausgeführt – der Rechtsprechung zufolge ist Zusatzwissen Dritter dann zurechenbar (und die DSGVO anwendbar), wenn der Zugriff auf das Zusatzwissen durch die datenverarbeitende Stelle vernünftigerweise zu erwarten ist. Unsicherheiten über den Personenbezug – und damit über die Anwendbarkeit der DSGVO – können auf diesem Feld daher letztlich nicht ganz ausgeräumt werden.

Die DSGVO gibt lediglich Rahmenbedingungen für die Anonymisierung vor. Für die Praxis bedeutet das, dass Daten in aller Regel technisch stärker verändert werden müssen, als nur durch Anpassung oder Entfernung des Klarnamens in einem Datensatz. Für die Frage, welche Maßnahmen ergriffen werden müssen, um eine vollständige Anonymisierung zu erreichen, lässt sich zwar keine generelle Regel formulieren. Im Ergebnis sollten die Datensätze jedoch so verändert werden, dass jede mögliche Kombination von Daten aus dem Datensatz zu mindestens zwei Treffern führt bzw. auf mindestens zwei verschiedene Personen zurückgeführt werden kann. Je höher die Anzahl der Treffer, desto besser und sicherer ist das Ergebnis. Je spezifischer die Informationen sind, desto stärker muss der Datensatz verändert werden. In der Umsetzung gibt es dafür neben der Nichtangabe bzw. Löschung von Daten einige weitere Anonymisierungstechniken, auf die Verantwortliche zurückgreifen können.

Mit der Methode der Verallgemeinerung/Vergröberung werden die Maßstäbe der Datensätze vergrößert, um die Zuordnung zu Personen zu verhindern. Beispielsweise können die Testpersonen in Altersgruppen eingeteilt werden, die dann anstelle ihres genauen Alters stehen. Auch hier muss aber darauf geachtet werden, mit einer zu starken Verallgemeinerung nicht die Brauchbarkeit der Daten zu beschädigen. Durch das zufallsbasierte Vertauschen von Spalten einer Tabelle werden Datengruppen anderen Datengruppen neu zugeordnet, während andere Spalten unverändert bleiben. Da hierdurch gegebenenfalls statistische Zusammenhänge verloren gehen können, werden die Methoden zum Teil angepasst und nur ähnliche Werte vertauscht. Damit verändert sich die statistische Aussage nicht, wenn etwa Krankheitsbefunde für Personen gleichen Geschlechts vertauscht werden, die Korrelationen zwischen Geschlecht und Krankheit aber erhalten bleiben.

Mittels des sogenannten "Verrauschens" werden fiktive Messfehler eingebaut, die Daten also geringfügig manipuliert, ohne dabei die Aussage der Statistik zu verändern. Das lässt sich beispielsweise durch die Veränderung des Geburtsdatums vom 5. auf den 10. April oder auf ähnliche Weise erreichen. Auch können völlig neue, künstliche Daten erstellt werden, die die ursprünglichen Daten ersetzen – der neu generierte Datenbestand basiert auf einem statistischen Modell, das aus den Ursprungsdaten erstellt wurde. Geeignet ist auch die schlichte Verringerung der repräsentierten Personen in einem Datensatz. Hierzu werden einzelne Zeilen ganz weggelassen oder nur stichprobenartig offenbart. Auch hier gilt es, die statistische Aussagekraft so gut wie möglich zu erhalten.

Bei allen vorgenannten Methoden kann das Risiko der Re-Identifizierung nicht völlig ausgeschlossen werden. Verschafft sich ein Angreifer Zugriff auf weitere Daten, die mit den anonymisierten kombiniert werden, ist er unter Umständen in der Lage, den Rückschluss auf die Person wieder herzustellen. Für eine sichere Anonymisierung ist es daher häufig sinnvoll und geboten, mehrere Anonymisierungstechniken miteinander zu kombinieren. Um Anonymisierungsverfahren zu verbessern und angriffsresistenter zu machen, wurden jüngst fünf durch das Bundesministerium für Bildung und Forschung geförderte Kompetenzcluster zum Thema Anonymisierung gegründet. AnoMed soll als eines der Cluster anhand öffentlich verfügbarer Datensätze aufzeigen, in welchen Anwendungsbereichen bestimmte Anonymisierungsverfahren besonderen Risiken ausgesetzt sind und modifiziert werden sollten. Die rechtlichen Fragen, die sich im Zusammenhang mit neuen Anonymisierungslösungen ergeben, will das Cluster gleich mit aufgreifen. Unter dem Titel Anony-Med beschäftigt sich ein weiteres Kompetenzcluster damit, wie künstliche Intelligenz im Anonymisierungsverfahren einen Mehrwert schaffen kann.

Anonymisierung und Pseudonymisierung sind die Mittel der Wahl, wenn mit Gesundheitsdaten wissenschaftlich geforscht werden soll. In der Praxis sind beide Maßnahmen aber mit vielen praktischen und rechtlichen Herausforderungen verbunden. Als graduelles Konzept ist die Pseudonymisierung dabei deutlich praxistauglicher als die Anonymisierung, bei der häufig nicht endgültig geklärt werden kann, ob der Personenbezug vollständig entfernt wurde. Rechtlich bedeutet es daher ein nicht unerhebliches Risiko, sich auf die Anonymität – und damit auf die Nichtanwendbarkeit des Datenschutzrechts – zu berufen. Hinzukommt, dass anonyme Daten aus der Perspektive der Forschung häufig nicht gleichermaßen wertvoll sind. Nicht nur aus diesem Grund bietet es sich im Gesundheitsbereich daher an, auf die vielfältigen Verfahren der Pseudonymisierung zurückzugreifen. Dies gilt insbesondere im Rahmen von Studien, bei denen ein langfristiges Erkenntnisinteresse verfolgt wird (Verlaufs- und Longitudinalstudien) sowie in Fällen, in denen bestimmte Erkenntnisse aus der Studie im Rahmen der medizinischen Behandlung Verwendung finden sollen und demzufolge der Personenbezug wieder hergestellt werden muss.

Auch und gerade bei seltenen Erkrankungen ist echter wissenschaftlicher Fortschritt kaum denkbar, ohne dass Datenbestände über längere Zeiträume aufgebaut und vorgehalten werden. In diesen und weiteren Fällen ist der Rückgriff auf die Maßnahme der Pseudonymisierung rechtlich geboten und wegen der vielfältigen Verfahren der Pseudonymisierung in der Praxis flexibel umsetzbar. Parallel verfolgen Sicherheitsforscher verschiedene Konzepte, um dennoch eine praktikable Anonymisierung oder weitestgehende Anonymisierung von Datensätzen zu gewährleisten. Der vermeintliche Gegensatz zwischen der Freiheit zur Forschung mit Gesundheitsdaten und dem geltenden Datenschutzrecht kann so vermittelt werden.

Hinweis: Pauline Engels und Dr. Philipp Siedenburg arbeiten bei der Rechtsanwaltskanzlei Schürmann Rosenthal Dreyer (SDR), die sich unter anderem die Datenschutz- und IT-rechtlichen Anforderungen im Gesundheitssektor spezialisiert hat. Darüber hinaus verantwortet Dr. Siedenburg das Health & Law Netzwerk, ein Format von SDR und der ISiCO Datenschutz GmbH

(mack)