Drei Fragen und Antworten: Angriffe auf KI-Systeme
Unternehmen, die KI-Systeme einsetzen, erweitern ihre Angriffsfläche. Was Angriffe auf KI besonders macht, und wie man sich schützen kann.
Wenn generative AI in Geschäftsanwendungen Einzug hält, kommen auf Unternehmen ganz neue Gefahren zu. Was Angriffe auf Sprachmodelle mit Social Engineering zu tun haben und warum Retrieval Augmented Generation (RAG) auf besondere Weise angreifbar ist, erklärt Prof. Dr. Patrick Levi im Kurzinterview. In der neuen iX erscheint ein Beitrag von Professor Levi zu Angriffen auf RAG-Systemen.
KI-Chatbots oder Large Language Models generell zu unerwünschtem Verhalten zu überreden, ist schon fast ein Volksport geworden und oft ganz lustig. Warum sind solche Jailbreaks trotzdem als ernsthafte Angriffe zu werten und wodurch können sie gefährlich sein?
Die Jailbreaks sind solange lustig, solange wir die entsprechenden Anwendungen für unser Vergnügen nutzen – etwa den Text für eine Weihnachtskarte zu schreiben. In dem Moment, in dem wir große Sprachmodelle für ernste Anwendungen nutzen, können sie zur Gefahr werden. Nämlich dann, wenn ein Chatbot mit vertraulichen Informationen hantiert oder zuverlässig richtige Empfehlungen geben soll.
Angriffe auf KI-Systeme sind ein bisschen wie Social Engineering gegen die künstliche Intelligenz. Man versucht, sein Gegenüber auszutricksen. Herkömmliche Angriffe nutzen eher bestimmte Schwachstellen. Social Engineering versucht ein für den Angreifer vorteilhaftes, für den Angegriffenen aber fatales Verhalten zu provozieren.
Mittlerweile ist Retrieval Augmented Generation (RAG) eine beliebte Technik, weil man da seine Modelle dabei nicht nachtrainieren muss und trotzdem eigene Daten verwenden kann. Wo wird es eingesetzt und was sind dort die speziellen Gefahren?
Im Grunde ist jeder Chatbot, der im Hintergrund eine Internetsuche einsetzt, ein RAG-System, genauso wie all die BĂĽroassistenten, die Notizen, E-Mails und andere Daten verarbeiten.
Das Interessante am RAG-System ist, dass der Angreifer oft kompromittierte Texte einschleusen kann, also eine Art von Data Poisoning vornimmt. Das liegt auch in der Natur der RAG-Systeme: Wenn ein RAG-System den Zweck hat, E-Mails zu verarbeiten, dann können Angreifer selbstverständlich Texte einschleusen, indem sie einfach E-Mails schreiben. Andernfalls wäre das System nutzlos. Auf die Art können sie auch bestimmte Angriffe persistieren, was mit normalen Jailbreaks ja in der Regel nicht geht.
Und was kann man tun, um sich davor zu schĂĽtzen?
Erst einmal, indem man sein RAG-System oder allgemein jede KI-Anwendung genau auf den Zweck zuschneidet, den sie erfüllen soll, und diesen Einsatzzweck möglichst eng definiert. Und dann muss man die erlaubten Interaktionen mit den Nutzern, API-Zugänge, Datenbank-Schnittstellen und so weiter soweit einschränken, dass sie nur dieses Ziel erfüllen.
Der zweite Punkt ist, zu wissen, wie Angriffe auf generative KI funktionieren, welche Methoden es gibt und was Angreifer damit erreichen können. Dann kann man, analog zu den Red-Teaming-Ansätzen in der klassischen IT-Security, auch KI-Systeme auf Schwachstellen abklopfen.
Herr Prof. Levi, vielen Dank fĂĽr Ihre Antworten.
In der neuen iX und auf in den Titel-Artikeln auf heise+ erfahren Leser, wie Angriffe auf große Sprachmodelle ablaufen, welche Gefahren speziell bei RAG-Systemen lauern und wie man sich als Anwender auf die vom AI Act geforderten Sicherheitsmaßnahmen vorbereitet. Die iX 1/2025 ist im heise-Shop und am Kiosk erhältlich.
(ulw)