Würmerplage möglich: Forscher zeigen Gefahren durch KI-Assistenten
Von generativer KI unterstützte Assistenten ermöglichen eine neue Generation von Computerwürmern, die sich durch selbst replizierende Prompts fortpflanzen.
Sicherheitsforscher von der Cornell University und dem israelischen Technion-Institut haben demonstriert, wie sich ein neuer Typ von Computerwürmern über KI-gestützte Assistenten ausbreiten kann. In Anlehnung an den ersten Computerwurm Morris, der 1988 an der Cornell University freigesetzt wurde, nannten sie ihren Ansatz Morris II.
Sie bedienen sich dabei des Prinzips der "feindlichen, selbst replizierenden Prompts". Das heißt, Angreifer tricksen ein KI-Modell aus, indem sie es dazu bringen, statt einer Ausgabe als Antwort auf einen Prompt - oder zusätzlich dazu – wiederum diesen Prompt zu erzeugen. Die Modelle können die üblichen großen Sprachmodelle (LLMs) sein, aber auch multimodale Modelle, die aus Sprache Bilder oder Videos erzeugen und umgekehrt. Das ist besonders interessant, da sich dann die replizierten Prompts auch in KI-generierte Bilder einbetten lassen.
KI-Ökosysteme als Nährboden
Voraussetzung dafür, dass sich der Wurm repliziert und Schadcode verbreitet, ist erstens ein Dienst, bei dem ein KI-Modell Nutzereingaben interpretiert und daraufhin bestimmte Aktionen ausführt, und zweitens weitere solcher Dienste oder Assistenten, die auf diese Aktionen reagieren können. Die Autoren der Studie sprechen dann von Ökosystemen aus generativer KI. Ob die Sprachmodelle lokal betrieben werden oder in der Cloud liegen, ist dabei unerheblich.
Als Beispiel wählten die Forscher einen KI-gestützten E-Mail-Assistenten und zeigten, wie sich per Mail derartige selbstreplizierende Prompts einschleusen lassen. Dabei gibt es zwei Methoden. Die Erste nutzt das Verfahren der Retrieval Augmented Generation (RAG) aus. Dabei werden allgemeine generative Modelle temporär mit Wissen aus lokalen Dokumenten angereichert, das in sogenannte Embeddings überführt wird. Die Modelle werten dann diese Informationen als Kontext aus, haben aktuelle Informationen und halluzinieren weniger. Vektorstores oder Vektordatenbanken speichern diese Embeddings dauerhaft. Gelangen nun die aus einer manipulierten Mail erzeugten Embeddings in den Vektorstore, dienen sie als Kontext für die Verarbeitung weiterer Mails und können ihren Schadcode replizieren.
Im Kontrollfluss ist der Wurm drin
Der zweite Weg führt über KI-Agenten, die auf der Basis von Antworten des Modells den Kontrollfluss einer Anwendung steuern. Um solche Agenten zu bauen, gibt es zahlreiche Frameworks und Bibliotheken und Beispielcode auf GitHub. Das Modell wird dann dazu gebracht, entsprechende potentiell schädliche Aktionen auszulösen, die zusätzlich den replizierenden Prompt enthalten.
Die Autoren der Studie demonstrierten beide Verfahren mit drei verschiedenen Modellen, Gemini Pro von Google, ChatGPT 4.0 und dem multimodalen LLaVA. Bei letzterem zeigten sie auch, wie sich Prompts in Bilder einbetten lassen. Sie benutzten jedoch keine existierenden E-Mail-Assistenten, sondern entwickelten selbst ein kleines Beispielprogramm.
Ihre Veröffentlichung wollen sie als Weckruf an die KI-Branche verstanden wissen, dass mit der Verbreitung und Verknüpfung von KI-Diensten neuartige Schadprogramme entstehen können. Der vorgestellte Ansatz ist derzeit eher als Proof-of-Concept zu sehen. Wenn sich KI-Assistenten jedoch allerorts einnisten und miteinander vernetzen, kann das Szenario eine reale Bedrohung werden.
(ulw)