ChatGPT: "Timebandit"-LĂĽcke macht die KI zum willigen Malware-Assistenten
Forscher haben eine neue SicherheitslĂĽcke entdeckt, mit der ChatGPT fĂĽr seine Nutzer Malware entwickelt. Dabei verliert die KI ihr ZeitgefĂĽhl.

(Bild: Gerd Altmann, gemeinfrei (Creative Commons CCo))
Eine Zeitreise zur verbotenen Information: So lässt sich eine neue ChatGPT-Sicherheitslücke sehr vereinfacht beschreiben. "Timebandit" (engl. für "Zeiträuber") heißt die Sicherheitslücke, bei der ChatGPT durch gezielte Anfragen des Nutzers den Zeitbezug verliert und dadurch bereitwillig Anleitungen für illegale Aktivitäten liefert. Normalerweise verhindern so etwas die eingebauten Sicherheitsregeln der Software.
Der freiberufliche KI-Sicherheitsforscher David Kuszmar entdeckte die Sicherheitslücke bereits im November 2024, fand aber bei OpenAI und diversen US-Behörden kein Gehör. Wie er im Gespräch mit dem Portal "Bleepingcomputer" berichtet, weiß ChatGPT durch den Trick nicht mehr, ob es sich in der Vergangenheit, der Gegenwart oder der Zukunft befindet.
"Time Bandit" war Zufallsentdeckung
"Time Bandit" lässt sich demnach ausnutzen, um der KI zum Beispiel Anleitungen zur Herstellung von Drogen oder Waffen oder zur Entwicklung von Malware zu entlocken. Normalerweise soll ChatGPT bei solch ominösen Anfragen dem Nutzer jede Unterstützung verweigern. Kuszmar entdeckte die "Timebandit"-Lücke zufällig, als er untersuchte, wie das KI-Modell Entscheidungen trifft. Dabei bemerkte er, dass ChatGPT nicht mehr in der Lage war, den zeitlichen Kontext zu erkennen, abgesehen von einer codebasierten Abfrage, um die Uhrzeit zu bestimmen.
Der Ansatz nutzt laut Kuszmar zwei entscheidende Schwachstellen. Zum einen wird ChatGPT durch die sogenannte "Timeline Confusion" (englisch für "Zeitachsen-Verwirrung") die Möglichkeit entzogen, eigenständig zu bestimmen, in welchem Jahr es sich befindet. Zudem kommt die "Procedural Ambiguity" (englisch für "prozessuale Mehrdeutigkeit") zum Einsatz, bei der Fragen so formuliert werden, dass es für ChatGPT Unstimmigkeiten und Unsicherheiten bei der Umsetzung gibt.
ZurĂĽck ins Jahr 1789
Die Redaktion von Bleepingcomputer brachte ChatGPT zum Beispiel dazu, eine Malware-Anleitung für einen Mathematiker aus dem Jahr 1789 zu erstellen, dem allerdings moderne Technologien zur Verfügung stehen. ChatGPT lieferte daraufhin eine detaillierte Schritt-für-Schritt-Anleitung. Das Computer Emergency Response Team Coordination Center (CERT) veröffentlichte ebenfalls eine Meldung zu "Time Bandit". Demnach war ChatGPT für die Methode besonders anfällig, wenn Zeitangaben aus dem 19. und 20. Jahrhundert verwendet wurden.
Von OpenAI blieb das Problem "Time Bandit" offenbar lange unbeachtet. So kontaktierte Kuszmar das Unternehmen laut Bleepingcomputer bereits kurz nach der Entdeckung, wurde aber an die Sicherheitslücken-Plattform BugCrowd verwiesen. Auch diverse US-Behörden, darunter das Federal Bureau of Investigation (FBI), zeigten demnach kein Interesse.
"Time Bandit" zunächst ignoriert
Insgesamt sind Methoden wie "Time Bandit" allerdings keine Neuheit. Auch in der Vergangenheit gab es bereits andere solche SicherheitslĂĽcken bei OpenAI. FĂĽr Metas Open-Source-KI Llama finden sich ebenfalls diverse Anleitungen im Netz, die helfen sollen, das Modell unzensiert zu machen.
Nachdem ein weiterer Anlauf von Kuszmar gemeinsam mit Bleepingcomputer bei OpenAI auch erfolglos blieb, gab Kuszmar seine Erkenntnisse an das CERT weiter, welches schlieĂźlich erfolgreich den Kontakt zu OpenAI herstellen konnte.
LĂĽcke offenbar weiter verfĂĽgbar
Ein Sprecher von OpenAI dankte Kuszmar für das Teilen seiner Erkenntnisse und hob zudem hervor, dass OpenAI auf keinen Fall wolle, dass die eigenen Technologien für illegale Aktivitäten genutzt würden. Dafür würde das Unternehmen laufend daran arbeiten, seine KI-Modelle sicherer zu machen.
Laut Bleepingcomputer war die "Time Bandit"-Lücke aber auch nach der Rückmeldung von OpenAI mit ein paar zusätzlichen kleinen – nicht näher genannten – Tricks gut nutzbar.
(nen)