ChatGPTs Memory-Funktion: Jetzt wird OpenAI richtig dreist

ChatGPT soll sich zukünftig teils sensible Nutzerdaten automatisch merken. Das ist eine Datenschutzkatastrophe, meint Philipp Steevens.

174

(Bild: Shutterstock/Irina Anosova)

15.02.2024, 12:29 Uhr

Lesezeit: 5 Min.

iX Magazin

Von

Philipp Steevens

Mit der angekündigten Memory-Funktion soll sich ChatGPT in Zukunft persönliche Informationen seiner Nutzer merken, um damit hilfreichere Antworten zu geben. Der Clou: Diese "Erinnerung" besteht zwischen allen geführten Chats, sodass man dem Modell manche Infos nicht mehrfach geben muss. Das ist natürlich die logische Fortsetzung von personalisierter Werbung und datenschutztechnisch mindestens genauso schlecht, wenn nicht sogar schlimmer.

Philipp Steevens ist seit 2022 bei iX. Er betreut vornehmlich Artikel aus den Bereichen Data Science und KI und kümmert sich um den LinkedIn-Auftritt des Magazins.

Allerdings soll der Chatbot etwa Gesundheitsdaten und ähnlich sensibles nicht automatisch speichern, an den entsprechenden Filtern dafür arbeite man gerade. Auf Wunsch der Nutzer können solche Daten dann aber eben doch in den Systemen von OpenAI hinterlegt werden. Das alles fließt selbstverständlich ins KI-Training ein, doch dazu gleich mehr. Bisher konnten Nutzer bei Bedarf persönliche Informationen in den Chatbot füttern, die die Ausgabe der Maschine etwas persönlicher zuschneiden sollten. Der Tooltip mit Denkanstößen sorgt hier schon für Zähneknirschen:

Wie funktioniert das technisch?

Technisch gesehen ist die Memory-Funktion natürlich kein Gedächtnis und mutmaßlich auch nicht mit dem naheliegenden Begriff RAM (Random Access Memory) vergleichbar. Ein Sprachmodell wie ChatGPT wandelt Text in vieldimensionale Vektoren um, um Sprache mathematisch repräsentieren zu können. Im KI-Umfeld nennt man dies ein Embedding. Gängigerweise vergleicht man dann die Winkel zwischen diesen Vektoren im Vektorraum – ein kleinerer Winkel bedeutet dabei eine größere Ähnlichkeit der Texte in den Vektoren. Das System schafft also aus den persönlichen Informationen einen eigenen Wort-Vektor, und erhöht damit die statistische Nähe bestimmter Begriffe und Themenfelder. Eine detailliertere Erklärung dieser Funktionsweise liefert zum Beispiel das iX-Sonderheft von 2023.

Videos by heise

Die Datenkraken, die ich rief …

Der Schreck über diese Funktion fängt an, wenn man sich den Screenshot mit Beispielen für Memory anschaut. Name und Alter von eigenen Kindern, deren Interessen, eigene persönliche Vorlieben, beliebte Urlaubsziele – das alles sollte nicht bei einer Firma gespeichert werden. Ja, Google hat es schon, okay. Wir sollten da mittlerweile aber einfach schlauer sein und die Sachen nicht auch noch OpenAI und deren Schirmherr Microsoft in den Rachen werfen!

Denn es hat sich gezeigt, dass das Internet nicht vergisst. Und ChatGPT dann auch nicht mehr: Zwar fließen solche Eingaben schon jetzt ins Modelltraining bei OpenAI ein, durch Memory zurrt sich das alles dann zu einem noch schöneren Personenprofil zusammen. Kann man auch gleich Verweise aufs Google-Werbeprofil einbauen. Training und Werbeprofil sind dabei sicherlich ausreichend anonymisiert, oder? Allerdings kann sich OpenAI dann in Zukunft anhand solcher sensiblen Daten weiter um das Offenlegen der eigenen Trainingsdaten herummogeln. Das ist exakt nicht die Transparenz, die der AI Act für solche Systeme fordert.

Probleme für ITler sind Katastrophen für DAUs

Viel größer ist das Risiko dann aber natürlich aus Security und Datenschutzsicht. Auf der einen Seite sind die KI-Systeme noch total marode und anfällig für Angriffe. Mit einem Wortwiederholungstrick ist es Forschern zuletzt gelungen, Trainingsdaten und persönliche Informationen aus ChatGPT zu extrahieren – und das in großem Stil. Es gibt zu viele unbekannte und unvorhersehbare Angriffsvektoren, die auch zurzeit alle nach und nach händisch mit Pflastern zugeklebt werden, aber erst, nachdem ein Exploit geglückt ist. ChatGPT ist die größte Operation am offenen Systemherzen, die die IT je zu Gesicht bekommen hat. Dass man die Daten von Enterprise-Kunden nicht im Training verwurschtelt, geschenkt.

Abseits von der Systemseite gibt es natürlich auch die Nutzerseite, auf der das Risiko von Datenlecks durch eine so schmackhafte Sammlung an sehr persönlichen Informationen deutlich gravierender wird. Hinzu kommt, dass auch die zukunftsweisenden GPTs mit der Memory-Funktion ausgestattet werden können. Will man die dann einsetzen, muss man das Feature natürlich selbst aktiviert haben. Dark Patterns lassen grüßen. ChatGPT wird also zum noch spannenderen Ziel von Kriminellen, die es auf Betrug mit und ohne Deepfakes abgesehen haben. Treffen wird es hier nicht die gut abgesicherten Profi-Nutzer, sondern wie immer die DAUs, die aus Bequemlichkeit nicht aufpassen, Passwörter recyclen und generell schlecht informiert sind. Es trifft also die Schwächsten in der IT-Nahrungskette.

Die Krönung: Datenschutz erfordert natürlich Widerspruch

Die eigenen Daten zu schützen ist dabei natürlich wie immer möglich, OpenAI verspricht da die Kontrolle. Nutzer können sich durch ein immerhin wenig verschachteltes Menü forsten und da der Memory-Funktion widersprechen. Das verschärft hier den Skill-Gap zwischen sensibilisierten Nutzern und Otto-Normal-Anwendern: Wie viele unbedarfte Durchschnittsnutzer gehen bei einer neuen App erstmal durch die Menüs und checken ihre Datenschutzoptionen?

ITler in der Pflicht!

Mit dem hohen Durchsatz an neuen Apps und Systemen ist jeder von uns oft erstmal wieder DAU. Doch manche von uns wollen oder müssen die Technik verstehen und beschäftigen sich deshalb tiefergehend damit. Unsere Freunde und Verwandten wollen aber die Bequemlichkeit und bleiben dumm. Aber gerade solche Menschen sind noch anfälliger für Datenlecks, Password-Spraying-Angriffe und Betrugsversuche. Klar, das ist irgendwo selbstverschuldete Unmündigkeit und trotzdem nimmt das die Experten umso mehr in die Pflicht. Denn jetzt ist es an uns Nerds – ob Profi-ITler oder interessierter Laie mit einem Bewusstsein für Datenschutz – unseren Bekannten von dieser Funktion abzuraten oder sie zumindest für die Risiken zu sensibilisieren.