Datenschutz: Wie der Datenhunger von OpenAI zum Bumerang wird

Die KI-Dienste wie ChatGPT verstoßen möglicherweise gegen Datenschutzgesetze – und es ist keine Lösung in Sicht.

118

Ahead, aber möglicherweise datenschutzrechtlich ein Problem: GPT-4 von OpenAI auf einem Schild.

(Bild: Urban Images/Shutterstock.com)

21.04.2023, 07:10 Uhr

Lesezeit: 9 Min.

MIT Technology Review

Von

Melissa Heikkilä

Nach einem Verbot in Italien und einer Reihe von Untersuchungen durch andere EU-Ländern hat OpenAI nun etwas mehr als eine Woche Zeit, um die europäischen Datenschutzgesetze einzuhalten. Gelingt dies nicht, könnten saftige Geldstrafen drohen, Datenlöschungen oder sogar ein Verbot in weiteren EU-Ländern.

Experten glauben, dass es für OpenAI nahezu unmöglich sein könnte, die Vorschriften einzuhalten. Das liege an der Art und Weise, wie die Daten für das Training der großen Sprachmodelle (Large Language Models, LLMs) gesammelt wurden, sagten die Experten gegenüber MIT Technology Review. Die Daten kämen aus dem Internet.

In der KI-Entwicklung herrscht aktuell ein Paradigma des Datenhungers vor: Je mehr Informationen im Modell während der Trainingsphase, desto besser. OpenAIs GPT-2-Modell hatte noch einen Datensatz, der aus 40 Gigabyte Text bestand. GPT-3, auf dem ChatGPT grundsätzlich basiert, wurde mit 570 GB gefüttert. OpenAI hat bislang nicht mitgeteilt, wie groß der Trainingsdatensatz für sein neuestes Modell, GPT-4, ist – er dürfte aber noch größer sein.

Der Datenhunger erweist sich nun allerdings als datenschutzrechtlicher Bumerang. Die zuständigen Behörden interessieren sich zunehmend dafür, wie OpenAI die Daten sammelt und verarbeitet, die Dienste wie ChatGPT nutzten. Datenschützer sind zudem der Meinung, dass das Unternehmen dabei persönliche Daten wie Namen oder E-Mail-Adressen von Personen gesammelt hat und ohne deren Zustimmung verwendet. Hinzu kommen die Informationen, die aktuell während der Nutzung anfallen und von denen angenommen wird, dass sie OpenAI zum weiteren Training verwenden könnte.

Lesen Sie auch

ChatGPT: Deutschlands Datenschützer eröffnen Verfahren gegen OpenAI

Italien setzt OpenAI eine Frist

Die italienische Datenschutzbehörde machte den Anfang und sperrte ChatGPT gleich vorsorglich. Auch französische, deutsche, irische und kanadische Privacy-Aufsichten untersuchen nun, wie OpenAI Daten sammelt und verwendet. Der Europäische Datenschutzausschuss EDSA, der Verbund der Datenschutzbehörden, richtet außerdem eine EU-weite Task Force ein, um die Untersuchungen zu koordinieren – samt möglicher Sanktionierungen von OpenAI.

Italien hat dem ChatGPT-Betreiber nun eine Frist bis zum 30. April gesetzt, um die örtlichen Gesetze einzuhalten. Dies würde unter anderem bedeuten, dass OpenAI Menschen um ihre Zustimmung zum Scraping ihrer Daten bitten oder nachweisen müsste, dass es ein sogenanntes berechtigtes Interesse ("legitimate interest") nach der Datenschutzgrundverordnung DSGVO hat. Diesen Rechtsbegriff verwendeten zuvor auch Websites und soziale Medien zur Anzeige personalisierter Werbung – nicht immer vor Gericht erfolgreich.

OpenAI muss den Nutzern zudem genauer erklären, wie ChatGPT ihre Daten verwendet – und ihnen sogar die Möglichkeit geben, fehlerhafte Angaben, die der Chatbot über sie ausspuckt, zu korrigieren. Daten müssen sich löschen lassen und das System es ermöglichen, ganz auf Daten einer Person zu verzichten, wenn diese das wünscht.

Wenn OpenAI die italienische Datenschutzbehörde nicht davon überzeugen kann, dass seine Datennutzungspraktiken legal sind, könnten die Angebote des Unternehmens in einzelnen EU-Ländern oder sogar in der gesamten Europäischen Union verboten werden. OpenAI könnte auch mit hohen Geldstrafen belegt und gezwungen werden, vollständige Modelle oder zumindest Daten, mit denen sie trainiert wurden, zu löschen. Davon geht Alexis Leautier aus, KI-Experte bei der französischen Datenschutzbehörde CNIL.

Forderung nach Transparenz

Die Verstöße von OpenAI könnten so eklatant sein, dass der Fall vor dem Gerichtshof der Europäischen Union, dem höchsten Gericht der EU, landet. Davon geht Lilian Edwards, Professorin für Internetrecht an der Universität Newcastle, aus. Trotz der Frist könnte die italienische Datenschutzbehörde lange auf die Beantwortung ihrer Fragen warten.

Und für OpenAI könnte der Einsatz kaum höher sein. Die DSGVO gilt zur Zeit als eine der strengsten Datenschutzregelwerke der Welt, wenn nicht sogar die strengste. Und sie wird in der ganzen Welt kopiert. Die Regulierungsbehörden von Brasilien bis Kalifornien beobachten genau, was nun als Nächstes passiert. Das Ergebnis könnte die Art und Weise, wie KI-Unternehmen Daten sammeln und verwenden, grundlegend verändern.

OpenAI muss dabei nicht nur seine Datenpraktiken transparent machen. Zunächst geht es darum, zu belegen, dass man nach den Regeln der DSGVO gearbeitet hat. Hier gibt es zwei legale Möglichkeiten. Entweder wurde die Zustimmung zur Datensammlung von den Nutzern eingeholt. Oder es gibt das besagte "berechtigte Interesse", dies zu tun. Eine Zustimmung für das sogenannte Scraping großer Teile des Internets hat OpenAI nicht eingeholt, dazu hätten Millionen EU-Bürger eine Einverständniserklärung abgeben müssen.

Bleibt "legitimate interest". Dazu muss das Unternehmen den Regulierungsbehörden möglichst überzeugend darlegen, wie wichtig der Dienst ChatGPT wirklich ist, um eine Datenerfassung ohne Zustimmung zu rechtfertigen, sagt Rechtsexpertin Edwards.

Lesen Sie auch

Drei Gründe, warum KI-Chatbots eine Sicherheitskatastrophe sind

OpenAI ist jetzt nicht mehr so "open"

Wie es OpenAI sieht

OpenAI hat MIT Technology Review gegenüber mitgeteilt, dass man glaubt, die EU-Datenschutzgesetze einzuhalten. In einem Blogposting heißt es zudem, dass die Firma daran arbeitet, persönliche Informationen auf Anfrage aus den Trainingsdaten zu entfernen – aber nur "wo dies möglich ist".

Der KI-Marktführer teilt weiter mit, dass er seine Modelle mit öffentlich zugänglichen und lizenzierten Inhalten trainiert hat. Hinzu kommen Informationen von menschlichen Zuarbeitern, die unter anderem beim Filtern problematischer Inhalte halfen sowie Antworten bewerteten (Reinforcement Learning from Human Feedback, RLHF). Zur Einhaltung der DSGVO dürfte das nicht reichen.

"In den USA gibt es eine Doktrin, die besagt, dass Dinge, die öffentlich zugänglich sind, nicht mehr privat sind, was im europäischen Recht überhaupt nicht gilt", sagt Juristin Edwards. Die Datenschutzgrundverordnung gibt den Menschen spezielle Rechte als "Datensubjekte" – darunter das Recht, darüber informiert zu werden, wie ihre Daten gesammelt und verwendet werden. Sie dürfen zudem verlangen, dass Daten wieder aus System entfernt werden, selbst wenn diese von vorne herein öffentlich waren.

OpenAI hat ein weiteres Problem. Die italienische Behörde sagt, dass OpenAI nicht transparent macht, wie es die Daten der Benutzer während der Nachschulungsphase sammelt, z. B. in Chatprotokollen ihrer Interaktionen mit ChatGPT.

Angst um die Daten aus den Chats

"Was wirklich besorgniserregend ist, ist die Art und Weise, wie die Daten verwendet werden, die die Nutzer im Chat preisgeben", sagt der französische Datenschützer Leautier. Die Menschen neigten dazu, dem Chatbot intime, private Informationen mitzuteilen, z. B. über ihren mentalen Zustand, ihre Gesundheit oder ihre persönliche Einstellung. Laut Leautier ist das problematisch, weil die Gefahr besteht, dass diese sensiblen Daten an andere weitergeben werden. Nach europäischem Recht müssen die Nutzer zudem die Möglichkeit haben, ihre Chat-Protokolle löschen zu lassen. Die Funktion existiert, doch wie lange interne Speicherfristen laufen, bleibt unklar.

All das wird für OpenAI enorm kompliziert. Es werde nahezu unmöglich sein, die Daten von Einzelpersonen zu identifizieren und aus den Modellen zu entfernen, sagt Margaret Mitchell, KI-Forscherin und Ethik-Chefin beim KI-Start-up Hugging Face, die zuvor bei Google für den Bereich mitverantwortlich war.

Schlimmer noch: OpenAI hätte sich viele der nun auftretenden Konflikte sparen können, wenn es von Anfang an eine robuste Datenaufzeichnung gegeben hätte. Stattdessen sei es in der KI-Branche üblich, so Mitchell, Trainingsdatensätze für große Sprachmodelle zu erstellen, indem man wahllos das Internet abgrast. Danach setzt man Drittfirmen ein – vor allem in Billiglohnländern –, die in Handarbeit doppelte oder irrelevante Informationen, Hass, Gewalt oder Kinderpornografie herausfiltern müssen – bis hin zur Korrektur von Tippfehlern.

Diese Methoden und die schiere Größe der Trainingsdatensätze führen dazu, dass die KI-Unternehmen in der Regel nur ein sehr begrenztes Verständnis dafür haben, wie ihre Modelle aufgebaut sind. Und so wird es nahezu unmöglich, sie datenschutzkonform zu trainieren.

Nadel im Heuhaufen der Trainingsdaten

Die meisten KI-Firmen dokumentieren nicht, wie genau sie Trainingsdaten sammeln oder mit Beschreibungen versehen. Sie wissen in der Regel nicht einmal, was in ihrem Datensatz genau enthalten ist, sagt Nithya Sambasivan, ehemalige KI-Forscherin bei Google und heute Unternehmerin, die sich auf den Umgang mit Trainingsdaten spezialisiert hat.

Beispielsweise nur die Daten italienischer Nutzer in dem riesigen ChatGPT-Trainingsdatensatz zu entdecken, entspricht der sprichwörtlichen Nadel im Heuhaufen. Und selbst wenn es OpenAI gelänge, die Daten dieser User-Gruppe zu löschen, ist unklar, ob dies von Dauer wäre. Frühere Studien haben gezeigt, dass Trainingsdatensätze noch lange nach ihrer angeblichen Löschung im Internet zu finden sind, weil Kopien des Originals meist online bleiben.

"Der Stand der Technik bei der Erfassung von Trainingsdaten ist sehr, sehr unausgereift", sagt Mitchell. Das liegt daran, dass zwar extrem viel Arbeit in die Entwicklung modernster KI-Modelle geflossen ist, in die Methoden der Trainingsdatenerfassung aber nur wenig – viele davon sind zehn oder mehr Jahre alt.

In der KI-Community wird die Arbeit an der Technik der Modelle auf Kosten aller anderen Bereiche überbetont, sagt Mitchell: "Kulturell gesehen gibt es beim Maschinellen Lernen dieses Problem, dass die Arbeit mit und an den Daten als Dummenarbeit, "silly work", angesehen wird, die Arbeit an den Modellen aber als die richtige." Expertin Sambasivan stimmt dem zu: Es fehle dem ganzen Arbeitsgebiet an der notwendigen Legitimität.

Lesen Sie auch

Trainingsdaten unter Zensur? Welche Probleme China mit seinem KI-Chatbot hat

Abseits von OpenAI: Unabhängige Sprachmodelle zeigen, was möglich ist

Generative KI: Die Geschichte hinter ChatGPT

(bsc)

nach oben

Alle Angebote

Newsletter heise-Bot Push Push-Nachrichten

${intro} ${title}

${intro} ${title}

Datenschutz: Wie der Datenhunger von OpenAI zum Bumerang wird

Lesen Sie auch

ChatGPT: Deutschlands Datenschützer eröffnen Verfahren gegen OpenAI

Italien setzt OpenAI eine Frist

Forderung nach Transparenz

Lesen Sie auch

Drei Gründe, warum KI-Chatbots eine Sicherheitskatastrophe sind

OpenAI ist jetzt nicht mehr so "open"

Wie es OpenAI sieht

Angst um die Daten aus den Chats

Nadel im Heuhaufen der Trainingsdaten

Lesen Sie auch

Trainingsdaten unter Zensur? Welche Probleme China mit seinem KI-Chatbot hat

Abseits von OpenAI: Unabhängige Sprachmodelle zeigen, was möglich ist

Generative KI: Die Geschichte hinter ChatGPT

Spiele

1 Monat gratis lesen.Jetzt 1 Monat gratis lesen.

Das digitale Abo für IT und Technik.