Kreditkartendaten und Phishing-Mails: KI-Agenten ĂĽberlisten leicht gemacht
Forscher haben KI-Agenten getestet. Die Assistenten sind offenbar gegen kein noch so einfaches Angriffsszenario gewappnet.

(Bild: photoschmidt/ Shutterstock.com)
KI-Agenten, die im Internet unterwegs sind, sind leicht anzugreifen. Und das bedeutet unter anderem, sie geben sensible Informationen und Kreditkartendaten preis. Konkret haben Forscher die Angriffsszenarien an verschiedenen Agenten von Anthropic getestet – die Ergebnisse dürften jedoch grundlegend gelten. In einer anderen Studie konnte mit einem ähnlichen Setting bereits ChatGPT vergiftet werden.
Betroffen sind KI-Agenten, die sich frei im Internet bewegen dürfen, dort also etwas erledigen, was der Auftraggeber ihnen mitgegeben hat. Die Anbieter schwärmen alle davon, dass Agenten irgendwann eine Reise für uns buchen können und weitere lästige Aufgaben abnehmen. Agenten bestehen in der Regel neben einem Large Language Model (LLM), das Inhalte versteht, aus einem Large Action Model, das Dinge tun kann – die Bezeichnungen variieren hier. Bei Anthropic macht ein KI-Agent Screenshots von jeweiligen Webseiten und kann so erkennen, wo etwa ein Eingabefeld ist und wo ein Klick nötig ist.
Falsche Informationen vergiften KI-Agenten
In der Studie haben die Forscher der Columbia University und der University of Maryland nun KI-Agenten über einen Reddit-Beitrag auf eine gefälschte Webseite geführt, auf der es vermeintlich Produkte zu kaufen gab, etwa einen "Himmelblau Königskühl Diplomat Kühlschrank". Der KI-Agent konnte überzeugt werden, Kreditkartendaten und Nutzerdaten einzugeben. Auf einer anderen Seite konnten die Wissenschaftler den Agenten Viren unterjubeln. Auf Anweisung luden die KI-Agenten Dateien aus nicht vertrauenswürdigen Quellen.
Wenn der Nutzer eines KI-Agenten ĂĽber den Browser in seinem E-Mail-Client angemeldet war, konnten die Forscher den Agenten sogar dazu bringen, Phishing-Mails von diesem Konto zu verschicken.
(Bild: Screenshot aus der Studie)
Einen Sonderfall stellt Anthropics KI-Agent für wissenschaftliche Zwecke dar: ChemCrow soll eigentlich bei der Recherche helfen. Die Autoren konnten ihn jedoch mittels eines gefälschten Papers dazu bringen, harmlose Chemikalien durch gefährliche Chemikalien zu ersetzen – freilich rein im geschriebenen Output, ein KI-Agent ist noch nicht in der Lage, auch tatsächlich etwas zusammenzurühren.
Alle Angriffe seien ohne besondere technische Kenntnisse gelungen, sagen die Forscher. Ein manipulierter Fachartikel, der in eine Datenbank gelangte, ein Fake-Shop, eine öffentliche Anweisung an den KI-Agenten, Reddit, all das sei mit minimalem Fachwissen möglich gewesen. Die Methoden sind auch bekannt als Jailbreaking, Prompt-Injection und Data Poisoning – durch sie können alle LLMs angegriffen werden. Im Falle eines handelnden KI-Agenten sind jedoch die Auswirkungen schwerwiegender.
Die Forscher fordern daher bessere Überwachungssysteme für die Agenten, beispielsweise mehr verpflichtende Eingriffe durch den Menschen und eine Prüfung von URLs. Außerdem könne ein Reasoning-Prozess helfen. Gemeint ist, dass die KI-Agenten ihr Tun selbst besser überwachen sollen.
KI-Agenten gibt es neben denen von Anthropic bereits von OpenAI, einen generellen namens Operator und einen auf Forschung spezialisierten namens deep research. Auch die KI-Suchmaschine Perplexity hat einen Assistant auf dem Markt. Google arbeitet an Jarvis und sagt, man starte mit Gemini 2 bereits in die Ă„ra der Agenten. Wenn diese jedoch alle derart groĂźe Sicherheitsrisiken mit sich bringen, wie in der Studie gezeigt, dĂĽrfte es eine besonders spannende Ă„ra werden.
(emw)