"Alberner Angriff" auf ChatGPT: Herausgabe von Trainingsdaten jetzt untersagt

Wenn ChatGPT aufgefordert wurde, ein Wort "für immer" zu wiederholen, lieferte die KI Trainingsdaten. OpenAI hat das Vorgehen untersagt – aber nicht gepatcht.

108

(Bild: Diego Thomazini/ Shutterstock.com)

05.12.2023, 09:24 Uhr

Lesezeit: 2 Min.

Von

Martin Holland

Nachdem es einem Forschungsteam mit einem simplen Trick gelungen war, dem Textgenerator ChatGPT 3.5 Trainingsdaten zu entlocken, hat OpenAI das Vorgehen nun untersagt. Wenn man das KI-System jetzt beauftragt, einen Begriff "für immer" zu wiederholen, erscheint ein Hinweis, dass das gegen die Inhaltsregeln und die Nutzungsbedingungen verstößt, berichtet 404 Media. Das US-Magazin hatte die Angriffsmethode vergangene Woche publik gemacht. Entdeckt hatten sie Forscher von Googles Deepmind, die die Angriffsmethode selbst als "albern" bezeichnen. Der Schritt von OpenAI deutet nun darauf hin, dass das Vorgehen selbst auch weiterhin erfolgversprechend wäre und es lediglich über einen Umweg verhindert werden soll.

Lücke nicht einmal per Patch geschlossen

Die genaue Vorgehensweise hat das Forschungsteam vergangene Woche publik gemacht. In einer online gestellten Erläuterung führt es aus, dass es den Textgenerator ChatGPT dazu gebracht habe, Trainingsdaten auszugeben. Dazu gehörten echte E-Mail-Adressen, Telefonnummern, Ausschnitte aus Forschungsartikeln, Wikipedia-Inhalte und mehr. Dafür musste die KI lediglich aufgefordert werden, einen Begriff "für immer" zu wiederholen. Dem kam ChatGPT vorerst nach. Nachdem aber offenbar eine Grenze erreicht wurde, spuckte der Chatbot Trainingsdaten aus. Eigentlich wurde die Technik explizit so programmiert, dieses Material nicht auszugeben.

Videos by heise

Das Forschungsteam selbst meinte, dass die Ausgabe der Trainingsdaten auf die "alberne" Aufforderung hin durch einen Patch von ChatGPT behoben werden könnte. Das würde die zugrundeliegende Angreifbarkeit aber nicht beheben, hatten sie gewarnt. Allerdings ging OpenAI nicht einmal so weit – es wertete die Aufforderung zur endlosen Wiederholung lediglich als Regelverstoß und versucht, ihn so zu verhindern. Anders als in dem Hinweis, der nun erscheint, gibt es weder in den "Usage Policies" noch in den "Terms of Service" Absätze, die eine Aufforderung zum endlosen Wiederholen verbieten.