Datenschützerin über ChatGPT: "Viele Fragen von Leuten, die sich Sorgen machen"

28.04.2023 12:05 Uhr Ben Schwan

Marit Hansen, Datenschutzbeauftragte des Landes Schleswig-Holstein.

(Bild: Markus Hansen/ULD)

Im TR-Interview erläutert Marit Hansen, Datenschutzbeauftragte des Landes Schleswig-Holstein, wie die deutschen und europäischen Behörden OpenAI prüfen.

Viele Millionen Nutzer, enorme Mengen an Daten: ChatGPT ist eine Herausforderung an den Datenschutz und wird bislang gefühlt nur wenig kontrolliert. Zwar gibt es in Italien ein erstes Verbot, [1] doch die meisten Behörden warten noch auf Antworten. Im Gespräch mit MIT Technology Review erläutert Marit Hansen, Datenschutzbeauftragte des Landes Schleswig-Holstein, wie das Vorgehen koordiniert wird, wie sie selbst ChatGPT einschätzt und ob die EU-Datenschutzgrundverordnung ChatGPT in Europa stoppen könnte.

Frau Hansen, als oberste Datenschützerin in ihrem Bundesland Schleswig-Holstein sind Sie mit den Large Language Models, kurz LLMs, beschäftigt. Wissen wir überhaupt, was in diesen Modellen aktuell steckt, wo die ganzen Informationen herkommen?

Im Augenblick wird nicht offengelegt – und zwar bei nahezu keinem Modell –, was eingespeist wurde. Das bezieht sich auch darauf, wie die Modelle manuell von Menschen weiter trainiert und bearbeitet wurden und auch, was man ihnen quasi "austrainiert" hat. Da haben wir noch ganz viele Fragezeichen. Das bedeutet natürlich, dass wir das als Datenschützer auch erst einmal nachvollziehen müssen, bevor wir es beurteilen können – zum Beispiel in Bezug darauf, ob die Quellen der Trainingsdaten rechtmäßig waren. Gibt es überhaupt eine Rechtsgrundlage, diese Daten zu verwenden? Das ist eine zentrale Frage aus Datenschutzsicht und die muss auf jeden Fall zügig beantwortet werden.

Angebote für den europäischen Markt

Hätte Ihrer Ansicht nach so ein LLM wie ChatGPT in Europa überhaupt gestartet werden dürfen?

Die EU-Datenschutzanforderungen gelten für den europäischen Markt, das heißt also auch für ChatGPT, das in Europa angeboten wird – selbst wenn der Hersteller OpenAI hier keine Niederlassung hat. Sofern personenbezogene Daten verarbeitet werden, muss OpenAI wie auch alle anderen Verarbeiter die Datenschutz-Grundverordnung (DSGVO) [2] einhalten. Also zum Beispiel sich um eine Rechtsgrundlage kümmern. Die Informationspflichten erfüllen. Es den betroffenen Personen ermöglichen, ihre Rechte auf Auskunft, auf Berichtigung und unter bestimmten Umständen auch auf Löschung ermöglichen. Die Sicherheit der Verarbeitung gewährleisten. Datenschutz by Design und by Default umsetzen. Wenn ein hohes Risiko zu erwarten ist, eine Datenschutz-Folgenabschätzung durchgeführt haben. Das sind alles Kriterien, von denen ich meinen würde: Wer in Europa ein Angebot auf den Markt bringt, der hat dies umgesetzt und damit die Antworten auf unsere Fragen schon in der Schublade liegen.

Wie prüfen Sie, ob das alles von OpenAI eingehalten wird?

OpenAI hat bislang keine Niederlassung in Europa. Jetzt stellt sich die Frage: Wer ist zuständig? Normalerweise gibt es genau eine federführende Behörde, die sich durch den Ort der Niederlassung bestimmt. In vielen Fällen, etwa bei Facebook oder Google, handelt es sich dabei um die Datenschutzaufsicht in Irland. Bei OpenAI ohne Niederlassung in der EU ist das nicht so. Stattdessen sind alle Datenschutzaufsichtsbehörden gleichermaßen zuständig. Im Fall von ChatGPT gab es so viele Nachfragen, dass wir als Landesbeauftragte für Datenschutz eine zeitnahe Prüfung für wichtig hielten. Und deswegen machen wir das nun deutschlandweit koordiniert durch verschiedene Landesdatenschutzbeauftragte und stimmen uns außerdem im europäischen Kontext ab.

In Italien hat die Datenschutzbehörde bereits agiert und ChatGPT sogar verboten. Wie haben die italienischen Kollegen das begründet? Und ist das eine Sache, die auch für Deutschland interessant sein könnte aus ihrer Perspektive?

Die italienischen Kollegen haben sich auf bestimmte Punkte wie die Rechtsgrundlagen, Informationspflichten, Betroffenenrechte und den Schutz von Kindern konzentriert und festgestellt, dass Antworten fehlen, die sie aus Datenschutzsicht erwartet hätten. Wir halten die Bewertung der italienischen Kollegen zum damaligen Stand für nachvollziehbar. Nun wollen wir weitere Fragen stellen und Auskünfte erhalten, auch weil sich ja laufend etwas ändert. Es ist jetzt bereits klar, dass die Situation mit GPT-4 heute schon eine andere ist als zum Zeitpunkt, als Italien eingegriffen hat.

"Dann müssen die Informationen auf dem Tisch liegen"

Welche Fristen haben Sie OpenAI gesetzt?

Die Frist im schleswig-holsteinischen Anschreiben ist der 7. Juni. Das wären genau sechs Wochen nach Versand der Anfrage. Das ist für eine Prüfung eines Angebots aus den USA meiner Ansicht nach fair, es gibt ja zum Glück E-Mail, da muss nicht alles per Post laufen. Und OpenAI hat auch schon gleich reagiert, dass die Anfrage angekommen ist. Ich gehe davon aus, dass die Frist auch eingehalten wird. Es sind umfangreiche Fragen in einem Umfang von sechs Seiten. Anfang Juni erwarten wir also die Antworten. Vielleicht haben wir noch Rückfragen, vielleicht dauert es noch ein bisschen, vielleicht wird es also noch in den Sommer reingehen. Aber dann müssen die Informationen auf dem Tisch liegen, die im Anschluss bewertet werden. Unsere Prüfung ist ergebnisoffen. Ähnliche Anfragen sind unter anderem von meinen Kollegen in Hessen, Rheinland-Pfalz, Baden-Württemberg und weiteren Ländern auf dem Weg oder in Vorbereitung.

Es scheint dabei aus Datenschutzsicht zwei Problemkomplexe zu geben. Beim Training der Modelle könnten personenbezogene Daten verwendet worden sein. Und bei der Benutzung der Systeme sammelt OpenAI zahlreiche Daten. Und niemand weiß, was damit passiert. Was ist das größere Problem?

Das kann ich derzeit noch gar nicht bewerten. Ein Training wäre theoretisch auch ohne Personenbezug möglich. Daneben werden aber personenbezogene Daten durch die Benutzung neu gesammelt. Wir erhalten viele Anfragen von betroffenen Personen, die sich Sorgen machen, weil sie ChatGPT für Formen der Beratung verwendet haben. In solchen Dialogen wird es bei vielen Menschen schnell persönlich. Es gibt Menschen, die sich dabei offenbaren und sehr viele, vielleicht sogar intime Details eintippen. Wie wird das ausgewertet? Was passiert damit? Das wollen wir als Datenschutzaufsichtsbehörde natürlich schon sehr genau wissen.

Löschoptionen für ChatGPT-Nutzer?

(Bild: Erstellt mit Midjourney von Technology Review)

Was ist mit den Löschmöglichkeiten persönlicher Daten einerseits in den Trainingsdaten, aber andererseits eben auch bei den mit ChatGPT geführten Dialogen?

Bis vor kurzem war von Löschoptionen für die Nutzenden noch gar keine Rede gewesen, nun soll immerhin die eigene History gelöscht werden können [3]. Man kann selbstverständlich ein Schreiben an OpenAI senden und fordern, dass die personenbezogenen Daten gelöscht werden. Aber wir wissen nicht, ob dann etwas passiert. Es ist ohnehin gar nicht so einfach, in den neuronalen Netzen, die hinter den Sprachmodellen liegen, überhaupt etwas herauszulöschen. Im technischen Bereich gibt es zwar Methoden des "Unlearnings", aber dazu besteht noch Forschungsbedarf im Bereich des maschinellen Lernens. Alternativ könnte man auch vorgeschaltete Filter installieren. Das löst das Löschproblem zwar nicht, aber damit könnte man gewährleisten, dass zumindest bestimmte unerwünschte Daten nicht mehr ausgespuckt werden, etwa zu früheren gerichtlichen Verurteilungen, die aufgrund des "Rechts auf Löschen" in Suchmaschinen nicht mehr auftauchen.

"Filter haben zu einer Zensur geführt"

Solche Filter können aber durchaus zum Problem werden.

Richtig! Zumindest bei Bing Chat, das auf GPT-4 von OpenAI basiert, weiß ich von Fällen, in denen Informationen zur Menschenrechtssituation der Uiguren, die vom chinesischen Staat verfolgt und malträtiert werden, nicht mehr ausgegeben wurden. Es hieß dann sinngemäß, der User könnte gerne nach etwas anderem fragen. Die Filter haben hier also zu einer Zensur, zu einem Herausfiltern, einem Canceln geführt – und das ist von außen nicht leicht zu erkennen. Das hat zwar nur am Rande mit Datenschutz zu tun, zeigt aber, dass ein solches System auch die Darstellung der Welt verändern kann. Es sind Fragen vom Äußerungsrecht, von Meinungsfreiheit, der Demokratie. Das geht weit über unsere Datenschutzprüfung hinaus.

In Italien wurde das Verbot von ChatGPT auch mit dem Jugendschutz begründet.

Das stimmt. Die DSGVO regelt, dass für Minderjährige ein besonderer Schutz nötig ist. Unter Expertinnen und Experten wurde beispielsweise das Szenario diskutiert, dass ChatGPT einem Kind, das 40 Kilo wiegt, einen Diätplan aufstellt, wie es weitere 5 Kilo abnehmen kann. Da könnte sich dann ein Kind quasi zu Tode hungern. Fragen zur Altersverifikation sind bislang ungeklärt. Will man überhaupt, dass ein solches System das Alter seiner Nutzenden kennt und dafür womöglich viele Daten sammelt? Hier müssen Datenschutz und Jugendschutz zusammenarbeiten.

Vorteile des europäischen Datenschutzes

Es gibt das Szenario, dass ChatGPT und andere KI-Systeme, die ja massive gesellschaftliche Veränderungen hervorrufen könnten, in Europa über den Datenschutz gestoppt werden könnten. Ist das realistisch?

Ein großer Vorteil beim Datenschutz ist, dass wir europaweit einheitliche Regeln haben – und dass damit eine einzelne Behörde, die nachvollziehbar prüft und Probleme feststellt, dann einen Erfolg "für alle" erwirken kann, wenn die Behörde anordnet, dass die Verarbeitung im Sinne der Rechtskonformität anzupassen ist. Außerdem haben wir im Datenschutz den Vorteil, dass der Europäische Gerichtshof relativ schnell Entscheidungen treffen kann, die dann für alle gelten und Klarheit bringen. In vielen anderen Rechtsbereichen sind die Regelungen bisher nicht vereinheitlicht. Nicht jede datenschutzfreundliche Gestaltung erfüllt gleichzeitig die Anforderungen aus den anderen Rechtsbereichen, die von den KI-Systemen berührt werden – das gehört zu den größten aktuellen Herausforderungen, weil wir dafür die Expertise aus den verschiedenen Bereichen zusammenbringen müssen.

Muss die EU nachweisen, dass in Trainingsdaten personenbezogene Daten stecken? Liegt die Beweislast also auf EU-Seite und nicht auf der von OpenAI, dass eben keine personenbezogenen Daten verwendet wurden?

Bei einem maschinellen Sprachen-Lernen fließen selbstverständlich digitale Texte ein. Wenn man nicht genau selektiert, werden zahlreiche Texte auch einen Bezug zu konkreten Personen haben. Damit liegt es nahe, dass personenbezogene Daten eingeflossen sind. Wer solche Angebote bereitstellt, muss gemäß der Rechenschaftspflicht nachweisen können, dass die Anforderungen der DSGVO erfüllt werden – übrigens auch, wenn vorgelagert eine Anonymisierung durchgeführt würde. Für die frühere GPT-2-Version ist aber sogar wissenschaftlich belegt [4], dass mit personenbezogenen Daten trainiert wurde – und es Möglichkeiten gibt, solche Daten herauszukitzeln.

(bsc [6])

URL dieses Artikels:
https://www.heise.de/-8981513

Links in diesem Artikel:
[1] https://www.heise.de/news/ChatGPT-Italienische-Datenschutzbehoerde-stellt-Bedingungen-fuer-Betrieb-8953957.html
[2] https://www.heise.de/thema/DSGVO
[3] https://www.heise.de/news/OpenAI-fuehrt-eine-Art-Privatmodus-fuer-ChatGPT-ein-8979177.html
[4] https://arxiv.org/pdf/2012.07805.pdf
[5] https://www.instagram.com/technologyreview_de/
[6] mailto:bsc@heise.de