Datenschützerin über ChatGPT: "Viele Fragen von Leuten, die sich Sorgen machen"

Seite 2: Löschoptionen für ChatGPT-Nutzer?

(Bild: Erstellt mit Midjourney von Technology Review)

Was ist mit den Löschmöglichkeiten persönlicher Daten einerseits in den Trainingsdaten, aber andererseits eben auch bei den mit ChatGPT geführten Dialogen?

Bis vor kurzem war von Löschoptionen für die Nutzenden noch gar keine Rede gewesen, nun soll immerhin die eigene History gelöscht werden können. Man kann selbstverständlich ein Schreiben an OpenAI senden und fordern, dass die personenbezogenen Daten gelöscht werden. Aber wir wissen nicht, ob dann etwas passiert. Es ist ohnehin gar nicht so einfach, in den neuronalen Netzen, die hinter den Sprachmodellen liegen, überhaupt etwas herauszulöschen. Im technischen Bereich gibt es zwar Methoden des "Unlearnings", aber dazu besteht noch Forschungsbedarf im Bereich des maschinellen Lernens. Alternativ könnte man auch vorgeschaltete Filter installieren. Das löst das Löschproblem zwar nicht, aber damit könnte man gewährleisten, dass zumindest bestimmte unerwünschte Daten nicht mehr ausgespuckt werden, etwa zu früheren gerichtlichen Verurteilungen, die aufgrund des "Rechts auf Löschen" in Suchmaschinen nicht mehr auftauchen.

"Filter haben zu einer Zensur geführt"

Solche Filter können aber durchaus zum Problem werden.

Richtig! Zumindest bei Bing Chat, das auf GPT-4 von OpenAI basiert, weiß ich von Fällen, in denen Informationen zur Menschenrechtssituation der Uiguren, die vom chinesischen Staat verfolgt und malträtiert werden, nicht mehr ausgegeben wurden. Es hieß dann sinngemäß, der User könnte gerne nach etwas anderem fragen. Die Filter haben hier also zu einer Zensur, zu einem Herausfiltern, einem Canceln geführt – und das ist von außen nicht leicht zu erkennen. Das hat zwar nur am Rande mit Datenschutz zu tun, zeigt aber, dass ein solches System auch die Darstellung der Welt verändern kann. Es sind Fragen vom Äußerungsrecht, von Meinungsfreiheit, der Demokratie. Das geht weit über unsere Datenschutzprüfung hinaus.

In Italien wurde das Verbot von ChatGPT auch mit dem Jugendschutz begründet.

Das stimmt. Die DSGVO regelt, dass für Minderjährige ein besonderer Schutz nötig ist. Unter Expertinnen und Experten wurde beispielsweise das Szenario diskutiert, dass ChatGPT einem Kind, das 40 Kilo wiegt, einen Diätplan aufstellt, wie es weitere 5 Kilo abnehmen kann. Da könnte sich dann ein Kind quasi zu Tode hungern. Fragen zur Altersverifikation sind bislang ungeklärt. Will man überhaupt, dass ein solches System das Alter seiner Nutzenden kennt und dafür womöglich viele Daten sammelt? Hier müssen Datenschutz und Jugendschutz zusammenarbeiten.

Vorteile des europäischen Datenschutzes

Es gibt das Szenario, dass ChatGPT und andere KI-Systeme, die ja massive gesellschaftliche Veränderungen hervorrufen könnten, in Europa über den Datenschutz gestoppt werden könnten. Ist das realistisch?

Ein großer Vorteil beim Datenschutz ist, dass wir europaweit einheitliche Regeln haben – und dass damit eine einzelne Behörde, die nachvollziehbar prüft und Probleme feststellt, dann einen Erfolg "für alle" erwirken kann, wenn die Behörde anordnet, dass die Verarbeitung im Sinne der Rechtskonformität anzupassen ist. Außerdem haben wir im Datenschutz den Vorteil, dass der Europäische Gerichtshof relativ schnell Entscheidungen treffen kann, die dann für alle gelten und Klarheit bringen. In vielen anderen Rechtsbereichen sind die Regelungen bisher nicht vereinheitlicht. Nicht jede datenschutzfreundliche Gestaltung erfüllt gleichzeitig die Anforderungen aus den anderen Rechtsbereichen, die von den KI-Systemen berührt werden – das gehört zu den größten aktuellen Herausforderungen, weil wir dafür die Expertise aus den verschiedenen Bereichen zusammenbringen müssen.

Muss die EU nachweisen, dass in Trainingsdaten personenbezogene Daten stecken? Liegt die Beweislast also auf EU-Seite und nicht auf der von OpenAI, dass eben keine personenbezogenen Daten verwendet wurden?

Bei einem maschinellen Sprachen-Lernen fließen selbstverständlich digitale Texte ein. Wenn man nicht genau selektiert, werden zahlreiche Texte auch einen Bezug zu konkreten Personen haben. Damit liegt es nahe, dass personenbezogene Daten eingeflossen sind. Wer solche Angebote bereitstellt, muss gemäß der Rechenschaftspflicht nachweisen können, dass die Anforderungen der DSGVO erfüllt werden – übrigens auch, wenn vorgelagert eine Anonymisierung durchgeführt würde. Für die frühere GPT-2-Version ist aber sogar wissenschaftlich belegt, dass mit personenbezogenen Daten trainiert wurde – und es Möglichkeiten gibt, solche Daten herauszukitzeln.