KI-Modelle: Datenschutz verhindert missbräuchliche Sekundärnutzung nicht
Den Datenhunger von KI einfach mit anonymisierten Daten stillen? Eine Juristin und ein Ethiker erklären, warum anonyme Daten sogar ein größeres Risiko bedeuten.
(Bild: good render/Shutterstock.com)
Daten sind wertvoll, speziell für das Training von KI-Modellen. Regelmäßig wird dabei vor allem darüber diskutiert, ob und wie eine vollständige Anonymisierung gewährleistet werden kann, damit die Daten weitergegeben werden dürfen.
(Bild: FernUniversität)
Zu kurz kommt dabei jedoch ein weiterer Aspekt: Die Anonymisierung schützt die Daten nicht. Das geht auch aus jüngsten Forschungsarbeiten der Juristin Hannah Ruschemeier und dem Philosophen Rainer Mühlhoff hervor, die unter anderem Firmen beleuchtet, die Daten mit fragwürdigen Intentionen nachnutzen. Eine Firma bietet die Dienste ihrer Software beispielsweise im HR-Bereich an, um depressive Bewerber anhand ihrer Stimme zu erkennen.
(Bild: 2020 Felix Noak)
Um das und ähnliche Vorgehensweisen zu verhindern, fordern Ruschemeier und Mühlhoff eine Zweckbindung für KI-Modelle. Für eine Einschätzung zu möglichen Gefahren bei der unbedarften Weitergabe und Nutzung sensibler Daten haben wir mit den beiden gesprochen.
Die Verordnung für einen europäischen Gesundheitsdatenraum soll unter anderem dafür sorgen, dass der Forschung große Datenmengen für das Training von KI-Modellen zur Verfügung stehen. Können Sie zunächst kurz etwas zu den positiven Aspekten sagen und wo da unsere Grenzen liegen?
Mühlhoff: Natürlich ist Potenzial da, medizinische Behandlungsabläufe oder gar Therapien mit Künstlicher Intelligenz zu verbessern. Das passiert zum Teil bereits, beispielsweise im Bereich der bildgebenden Verfahren.
Ruschemeier: Genauso muss man sich aber auch darüber bewusst sein: Sofern nicht präzise definiert wird, was denn der im Gemeinwohl-Sinne positive Nutzen von etwas ist, öffnen wir auch mit vermeintlich guten Anwendungen die Tür für Missbrauch. Dann können Daten, die man da zur Verfügung stellt und die KI-Modelle, die man baut, auch für nicht-gemeinwohlorientierte oder schädliche Zwecke zweitverwendet werden, zum Beispiel für diskriminierende oder lediglich profitorientierte Anwendungen.
Das dient dann nicht mehr dem Gemeinwohl?
Mühlhoff: Es ist ein häufiges und realistisches Phänomen, dass Daten für gemeinnützige Zwecke erhoben oder KI-Modelle dafür gebaut werden, dann aber eine Zweitverwendung erfahren, die nicht mehr dem Gemeinwohl dient.
Zum Beispiel: Wenn mit Daten von PatientInnen eine KI gebaut wird, die anhand der Stimme eines Betroffenen diagnostizieren kann, ob die Person zum Beispiel Depressionen hat, dann bietet das zunächst einen medizinischen Nutzen. Von dem können prinzipiell alle profitieren, sofern das in der Medizin zur Anwendung kommt. Aber es ist vorstellbar, dass genau solch ein KI-Modell den Anwendungskontext wechseln könnte: Wenn es beispielsweise bei einem Bewerbungsgespräch eingesetzt wird, könnte man Personen damit diskriminieren. Leider ist das Beispiel nicht frei erfunden, sondern genau solche KI-Systeme sind im Bereich der Personalführung aktuell nachgefragt.
Ruschemeier: Um dieses Risiko missbräuchlicher Sekundärnutzung zu verstehen, benötigen wir zunächst ein Bewusstsein dafür, dass es nicht nur die positiven Anwendungen von medizinischen Daten und KI gibt, die in den öffentlichen Diskussionen meist im Vordergrund stehen; sondern eben auch missbräuchliche oder schädliche Nutzungsweisen. Genau zu definieren, wo die Trennlinie dazwischen liegt, ist wichtig, wenn wir Regulierung wollen, die das Innovationspotenzial im Sinne des Gemeinwohls fördert. Wir wollen eine Regulierung, die die positiven Anwendungen ermöglicht und den Missbrauch einschränkt.
Ist das für den Europäischen Gesundheitsdatenraum nicht definiert?
Ruschemeier: Der EHDS normiert ausdrücklich erlaubte und unerlaubte Zwecke der Sekundärnutzung von Gesundheitsdaten. Die erlaubten Zwecke sind dabei sehr weit und umfassen Bildung oder Forschung mit Gesundheitsbezug. Sehr wichtig ist, dass bestimmte kommerzielle Sekundärnutzungszwecke verboten sind: der Abschluss von Kredit- und Versicherungsverträgen und die Durchführung von Werbetätigkeiten.
Unklar ist, wie die Weiternutzung der anonymisierten Daten über die Sekundärnutzung hinaus kontrolliert werden kann, insbesondere wie die Gesundheitsdatennutzer, die eine Zugangsgenehmigung zum EHDS haben, sichergestellt werden kann. Denn die Weitergabe an Dritte an sich ist keine unerlaubte Sekundärnutzung.
Für uns sind zwei Aspekte relevant: Zum einen ist eine demokratische Verständigung über Zwecke erforderlich: Was sind gute, gemeinwohlorientierte Zwecke und was sind schlechte Zwecke? Bestimmte Zwecke sollten verboten sein, andere wiederum sind dezidiert förderungswürdig. Im EHDS ist das schon sehr rudimentär angelegt, wir plädieren aber dafür, dies nicht nur auf Gesundheitsdaten zu konzentrieren.
Jetzt könnte man einwenden, der EDHS sieht ja ein Widerspruchsrecht der betroffenen Personen gegen die Sekundärnutzung vor, andernfalls ist diese erlaubt. Wir würden sagen, das reicht aber nicht, um das Risiko der Sekundärnutzung einzugrenzen. Und zwar aus mehreren Gründen: Die Betroffenen müssen erstens auch effektiv darüber informiert sein, dass es dieses Widerspruchsrecht gibt und welche Konsequenzen eine Sekundärnutzung ihrer anonymisierten Daten für Dritte haben kann. Zweitens sieht der EDHS auch Ausnahmen vom Widerspruchsrecht vor, zum Beispiel für "wissenschaftliche Forschung aus wichtigen Gründen des öffentlichen Interesses". Drittens, und das ist der entscheidende Punkt: Die Auswirkungen einer Nutzung anonymisierter Gesundheitsdaten oder daraus entstehender KI-Modelle betreffen potenziell alle Mitglieder der Gesellschaft. Denn die Daten und Tools können dann prinzipiell auf beliebige Dritte angewendet werden.
Mühlhoff: Diese kollektive Dimension der Verantwortung wird aber überhaupt nicht durch das Widerspruchsrecht der in den Daten enthaltenen abgebildet. Niemand ist sich bewusst, dass man da eine Entscheidung nicht für sich, sondern für das gesamte Gemeinwesen trifft – und keine Einzelperson kann so eine große Entscheidung treffen. Einwilligung und Widerspruch sind also die falschen Instrumente in Situationen wie dieser, wo es um kollektive Auswirkungen von Datenverarbeitung oder KI geht.
Also sind die Daten dann effektiv unreguliert?
Mühlhoff: Die Anonymisierung der Daten verhindert deren schädliche Nutzung nicht effektiv, vor allem nicht im Hinblick auf Anwendungen, die beliebige Dritte, also uns alle, treffen könnten. Mit anonymisierten Daten kann man Modelle trainieren, die über Dritte, die gar nicht in dem Datensatz sind, Vorhersagen machen können. Damit ist eine neue Art der Privatsphäreverletzung möglich: Wir nennen das in unserer Forschung "prädiktive Privatheit". Sie kann auf dem Wege der Vorhersage verletzt werden, also durch vorhergesagte Informationen und nicht durch geleakte oder geklaute Informationen.
Die Anonymisierung der Daten verhindert also nicht, dass mit dem Training von KI-Modellen so etwas wie "Weapons of Math Destruction" entstehen, wie die Mathematikerin Catherine Helen O'Neil es nennen würde. Also sehr potente KI-Werkzeuge, die es ermöglichen, über beliebige dritte Personen, die gar nicht in den Daten enthalten sind, zum Beispiel Krankheiten vorherzusagen. So ein Werkzeug in Händen Dritter kann Diskriminierung ermöglichen, beispielsweise von der Versicherungsindustrie. Es kann bei Bewerbungsgesprächen dazu führen, dass Menschen mit einem höheren Gesundheitsrisiko keine Jobs mehr erhalten.
Ruschemeier: Die neue KI-Verordnung verbietet zwar Emotionserkennungssysteme am Arbeitsplatz und stuft den Einsatz von KI im Arbeitsumfeld als Hochrisikosysteme. Allerdings ist fraglich, ob die Regelungen ausreichend sind – beispielsweise unterliegen private Anbieter nicht einmal der Verpflichtung zur Grundrechtsfolgenabschätzung.
Was in der Debatte nicht berücksichtigt wird, ist, dass dieses Missbrauchsrisiko bei anonymen Daten nicht nur vorhanden, sondern sogar größer ist, weil anonyme Daten schlechter reguliert werden. Die Datenschutz-Grundverordnung gilt nicht für anonyme Daten. Solange die Daten nicht anonymisiert sind, gibt es genaue Regelungen für den Umgang mit ihnen, etwa die Zweckbindung. In dem Moment, wo die Daten anonymisiert sind oder ein KI-Modell aus den anonymen Daten trainiert wird, bricht auch diese Zweckbindung und es gibt keine Regelungen mehr. Die Anonymisierung von Daten hat im Zeitalter von KI nur eine begrenzte Schutzfunktion, da Datenschutzvorgaben nicht mehr greifen, Risiken aber weiterhin bestehen.
Karl Lauterbach hatte Ende 2024 angekündigt, dass Unternehmen wie OpenAI, Google und Microsoft bereits Schlange stehen für die pseudonymisierten Daten beim Forschungsdatenzentrum Gesundheit. Wie schätzen Sie das ein?
Ruschemeier: Private Firmen haben ein erhebliches wirtschaftliches Interesse an solchen Daten. Diese Player sind auch die Einzigen, die die Rechenpower, die technische Infrastruktur und das Know-how haben, um damit schnell sehr potente KI-Tools zu bauen. Alle anderen Akteure, die das machen wollen, müssten wieder auf deren Infrastruktur zurückgreifen. Im staatlichen Bereich kann dies zu Abhängigkeiten und Problemen für die digitale Souveränität führen. Gleichzeitig sind kleine Unternehmen, die vielleicht tatsächlich etwas Gutes im Sinn haben, benachteiligt. Hier sehen wir die starke Machtkonzentration im KI-Bereich, die dazu führt, dass von den nun zur Verfügung gestellten Gesundheitsdaten erstmal vor allem die Big Player profitieren werden.
Mühlhoff: Der derzeitige explorative Ansatz, der beispielsweise mit den Daten aus der elektronischen Patientenakte verfolgt wird, muss ganz klar auf Forschung begrenzt sein, die gemeinwohlorientierte Zwecke verfolgt. Schwierig wird es, wenn man die Daten dann in anderen Bereichen wie der Versicherungsindustrie, im HR-Bereich oder auf staatlicher Seite bei der Strafverfolgung wiederfindet. Dann steht ein gänzlich anderer Zweck dahinter, der für die betroffenen Personen nicht erkennbar war. Daher ist eine entsprechende Regulierung sehr wichtig, die aber auch effektiv vollzogen werden muss.
Wir sehen, dass zum Beispiel Google immer wieder teils auch sehr hohe Bußgelder zahlen muss. Treffen derartige Maßnahmen dann auch wieder nur die kleinen Unternehmen?
Mühlhoff: Die bisherigen vier Prozent vom Jahresumsatz als Maßstab halten wir für sinnvoll, da somit auf die Unternehmensgröße skaliert wird. Wichtig ist aber, dass Verstöße auch effektiv durchgesetzt werden.
Werden wir der Gefahr von Missbrauch bei der Datennutzung dadurch Herr werden können?
Mühlhoff: Uns ist sehr bewusst, dass die Regulierung der Datensätze noch viel schwieriger ist als die Regulierung von KI-Modellen. Bei KI-Modellen weiß man wenigstens: Die können nicht plötzlich überall auf der Welt sprießen, denn dafür ist eine bestimmte Infrastruktur notwendig.
Bei den Daten ist das ganz anders. Es gibt keine rechtsstaatliche Grundlage, anonymisierte Daten zu regulieren. Man kann ja nicht einfach etwas regulieren und beliebig die Freiheit einschränken. Wir leben in einer liberalen Gesellschaft, wo erst einmal alles erlaubt ist und wenn man es verbieten will, muss man es begründen. Und dann muss man immer sagen, was ist denn das Risiko und das Schadpotenzial? Man kann nicht allgemein einen Schaden aus anonymisierten Daten ableiten.
Ruschemeier: Der Adressatenkreis dieser Regulierung und auch die Orte, wo man hinschauen muss, ist definierbar. Big Tech müsste man die Pflicht auferlegen, erst dann Daten fürs Training von Modellen zu verwenden, wenn sie wissen, wo diese herkommen und dies auch nachweisen können. Jetzt sehen wir gerade, wie OpenAI und andere nahezu das ganze Netz gescrapt haben und einfach trotz Copyright-Verletzungen daraus Modelle trainiert haben. Ich bin da nicht besonders hoffnungsvoll.
Wie sieht es denn mit Open-Data-Ansätzen aus?
Mühlhoff: Eine verbreitete Vorstellung ist, dass offene Daten förderlich für die Demokratie sind. Das ist in vielerlei Hinsicht richtig. Wir müssen mit KI jedoch umdenken, weil plötzlich negative oder missbräuchliche Nutzungsweisen der veröffentlichten Daten möglich werden. Auch im Bereich Open Data benötigen wir eine Zweckbindung und entsprechende Lizenzen. Aus moralischem Antrieb müssen wir Daten so lizenzieren, dass sie nicht komplett frei und ohne Zweckbindung verwendet werden dürfen.
(mack)