OpenAI: Prompt Injections für KI-Browser bleiben ein Problem
KI-Agenten und Browser werden besser gegen Prompt Injections geschützt. Doch: Das Problem wird laut OpenAI noch Jahre bestehen.
Die Buchstaben AI umfliegen Haken und Warndreiecke.
(Bild: tadamichi/Shutterstock.com)
Prompt Injections werden laut OpenAI ein dauerhaftes Problem für KI-Browser und die darin enthaltenen Agenten sein. Aussichten auf echte Sicherheit gibt es offenbar nicht. Stattdessen vergleicht das Unternehmen den Angriff damit, dass auch Menschen auf Scam hereinfallen, und es bisher keine Möglichkeit gäbe, sie zu schützen.
Dennoch versichert OpenAI in einem Blogbeitrag, dass sie ihren KI-Browser Atlas erneut zumindest sicherer gegen Prompt Injections gemacht haben. Nur eben nicht vollständig sicher. Intern würden vom sogenannten Red-Teaming immer neue Angriffsmöglichkeiten entdeckt, gegen die der Browser – beziehungsweise das KI-Modell dahinter – abgesichert wird. Abgesichert heißt, dem Modell wird ein konkretes Beispiel mitgegeben und dazugehörige Handlungsweisen festgeschrieben. Dafür nutzt OpenAI unter anderem einen LLM-basierten Angreifer, der Agenten trainieren soll.
KI-Agenten: Vertrauen, aber keine Kontrolle
Das heißt auch, es handelt sich um eine Art Katz-und-Maus-Spiel, das Angreifer und KI-Unternehmen spielen. Jede Seite denkt sich kontinuierlich neue Angriffe aus. OpenAI schreibt, man gehe davon aus, dass Angriffe dadurch zumindest immer schwerer und teurer würden. „Letztendlich ist es unser Ziel, dass Sie einem ChatGPT-Agenten bei der Nutzung Ihres Browsers genauso vertrauen können wie einem hochkompetenten, sicherheitsbewussten Kollegen oder Freund.“
Wie weit solches Vertrauen reicht, ist wohl von Mensch zu Mensch unterschiedlich. Es zeigt aber auch, es gibt keine endgültige Sicherheit oder Kontrolle.
Videos by heise
Bei Prompt Injections wird dem Agenten im Browser oder auch einem KI-Modell ganz grundsätzlich untergejubelt, das Modell solle sich in einer bestimmten Art verhalten oder im Falle eines Agenten auch umsetzen, also handeln. Ganz simpel kann es reichen, wenn auf einer Webseite Anweisungen wie ein Prompt für den Agenten untergebracht sind. Das geht beispielsweise mit weißer Schrift auf weißem Untergrund, sodass es für den Menschen nicht sichtbar ist, für den Agenten jedoch schon.
OpenAI nennt im Blogbeitrag das Beispiel, ein Angreifer könne eine bösartige E-Mail schreiben, die einen Agenten dazu verleitet, sensible Daten, etwa Steuerunterlagen, an eine vom Angreifer kontrollierte E-Mail-Adresse weiterzuleiten. Dabei ist es ein typisches Agenten-Szenario, dass ein solcher E-Mails automatisiert bearbeitet und zusammenfasst.
Auch Sam Altman hatte schon vor potenziellen Gefahren durch Prompt Injections für den KI-Browser Atlas und den ChatGPT Agenten gewarnt. Kurz darauf kam heraus, dass es bereits einen Angriff gegeben hatte. ChatGPT verriet dabei Angreifern persönliche Daten aus E-Mails.
(emw)