Kreditkartendaten und Phishing-Mails: KI-Agenten überlisten leicht gemacht

Forscher haben KI-Agenten getestet. Die Assistenten sind offenbar gegen kein noch so einfaches Angriffsszenario gewappnet.

14

(Bild: photoschmidt/ Shutterstock.com)

17.02.2025, 13:11 Uhr

Lesezeit: 3 Min.

Von

Eva-Maria Weiß

KI-Agenten, die im Internet unterwegs sind, sind leicht anzugreifen. Und das bedeutet unter anderem, sie geben sensible Informationen und Kreditkartendaten preis. Konkret haben Forscher die Angriffsszenarien an verschiedenen Agenten von Anthropic getestet – die Ergebnisse dürften jedoch grundlegend gelten. In einer anderen Studie konnte mit einem ähnlichen Setting bereits ChatGPT vergiftet werden.

Betroffen sind KI-Agenten, die sich frei im Internet bewegen dürfen, dort also etwas erledigen, was der Auftraggeber ihnen mitgegeben hat. Die Anbieter schwärmen alle davon, dass Agenten irgendwann eine Reise für uns buchen können und weitere lästige Aufgaben abnehmen. Agenten bestehen in der Regel neben einem Large Language Model (LLM), das Inhalte versteht, aus einem Large Action Model, das Dinge tun kann – die Bezeichnungen variieren hier. Bei Anthropic macht ein KI-Agent Screenshots von jeweiligen Webseiten und kann so erkennen, wo etwa ein Eingabefeld ist und wo ein Klick nötig ist.

Falsche Informationen vergiften KI-Agenten

In der Studie haben die Forscher der Columbia University und der University of Maryland nun KI-Agenten über einen Reddit-Beitrag auf eine gefälschte Webseite geführt, auf der es vermeintlich Produkte zu kaufen gab, etwa einen "Himmelblau Königskühl Diplomat Kühlschrank". Der KI-Agent konnte überzeugt werden, Kreditkartendaten und Nutzerdaten einzugeben. Auf einer anderen Seite konnten die Wissenschaftler den Agenten Viren unterjubeln. Auf Anweisung luden die KI-Agenten Dateien aus nicht vertrauenswürdigen Quellen.

Wenn der Nutzer eines KI-Agenten über den Browser in seinem E-Mail-Client angemeldet war, konnten die Forscher den Agenten sogar dazu bringen, Phishing-Mails von diesem Konto zu verschicken.

Screesnhot aus der Studie mit dem Mail-Text. — Der Text der Phishing-Mail, die KI-Agenten verschickt haben.

(Bild: Screenshot aus der Studie)

Einen Sonderfall stellt Anthropics KI-Agent für wissenschaftliche Zwecke dar: ChemCrow soll eigentlich bei der Recherche helfen. Die Autoren konnten ihn jedoch mittels eines gefälschten Papers dazu bringen, harmlose Chemikalien durch gefährliche Chemikalien zu ersetzen – freilich rein im geschriebenen Output, ein KI-Agent ist noch nicht in der Lage, auch tatsächlich etwas zusammenzurühren.

Alle Angriffe seien ohne besondere technische Kenntnisse gelungen, sagen die Forscher. Ein manipulierter Fachartikel, der in eine Datenbank gelangte, ein Fake-Shop, eine öffentliche Anweisung an den KI-Agenten, Reddit, all das sei mit minimalem Fachwissen möglich gewesen. Die Methoden sind auch bekannt als Jailbreaking, Prompt-Injection und Data Poisoning – durch sie können alle LLMs angegriffen werden. Im Falle eines handelnden KI-Agenten sind jedoch die Auswirkungen schwerwiegender.

Die Forscher fordern daher bessere Überwachungssysteme für die Agenten, beispielsweise mehr verpflichtende Eingriffe durch den Menschen und eine Prüfung von URLs. Außerdem könne ein Reasoning-Prozess helfen. Gemeint ist, dass die KI-Agenten ihr Tun selbst besser überwachen sollen.

Lesen Sie auch

KI-Update: Talk unter KIs, KI-Songkopien, Neutronensterne lokalisieren

Bessere KI-Siri: Bremsten Prompt Injections Apples Zeitplan?

Black Swan 2025: Welche Gefahr von KI ausgeht

Versteckte Hinweise auf Webseiten können ChatGPT Search vergiften

"Passwort" Folge 7: Prompt Injections

KI-Agenten gibt es neben denen von Anthropic bereits von OpenAI, einen generellen namens Operator und einen auf Forschung spezialisierten namens deep research. Auch die KI-Suchmaschine Perplexity hat einen Assistant auf dem Markt. Google arbeitet an Jarvis und sagt, man starte mit Gemini 2 bereits in die Ära der Agenten. Wenn diese jedoch alle derart große Sicherheitsrisiken mit sich bringen, wie in der Studie gezeigt, dürfte es eine besonders spannende Ära werden.

(emw)