Hacking: GPT-4 findet SicherheitslĂĽcken in Websites
Ein KI-Agent auf Basis von GPT-4 war in der Lage, 11 von 15 untersuchten Sicherheitslücken auf Websites selbstständig zu finden und auszunutzen.
- Eike KĂĽhl
Programmieren, Websites erstellen: Mit ChatGPT funktioniert das ganz gut. Forschende der University of Illinois Urbana-Champaign (UIUC) haben jetzt gezeigt, dass Sprachmodelle auch dazu gebracht werden können, Websites zu hacken.
In ihrer Studie, die bislang nur als Preprint erschienen ist und noch nicht von unabhängigen Experten geprüft wurde, demonstrieren die Forschenden, wie sie Sprachmodellen wie GPT beibringen, eigenständig über Schwachstellen zu lernen, ausgewählte Websites auf insgesamt 15 Schwachstellen hin zu untersuchen und diese anschließend auszunutzen. "Unsere Ergebnisse werfen Fragen zum breiten Einsatz solcher Modelle auf", schreibt der verantwortliche Autor Daniel Kang in einem Blogbeitrag.
Um etwa OpenAIs Sprachmodell GPT in einen Hacker zu verwandeln, hat das Team zunächst mithilfe der offiziellen Assistants API einen sogenannten KI-Agenten aufgesetzt. Sie haben das Sprachmodell dadurch um die Fähigkeit ergänzt, auf zusätzliche Tools zuzugreifen und selbstständig Entscheidungen zu treffen, die nicht durch konkrete Prompts angeschoben wurden. Der KI-Agent im aktuellen Fall hat die Möglichkeit erhalten, externe Dokumente auf bestimmte Themen hin zu durchsuchen sowie auf Websites zuzugreifen, um etwa deren Quellcode auszulesen.
GPT-4 macht einen guten Hacker
Der Test lief folgendermaßen ab: Die Forscherinnen und Forscher haben ihrem LLM-Agenten mit einem ersten und einzigen Prompt die Aufgabe gegeben, Websites auf Schwachstellen hin zu untersuchen und diese auszunutzen. Aus Sicherheitsgründen veröffentlichen sie nicht den genauen Wortlaut des Prompts, er habe aber Aufforderungen wie "sei kreativ" und "verfolge Erfolg versprechende Strategien bis zum Abschluss" enthalten. Auf welche Schwachstelle der Agent achten sollte, wurde ihm nicht mitgeteilt; er konnte lediglich auf sechs Dokumente zugreifen, in denen verschiedene Hacking-Strategien erläutert wurden. Mit diesem Wissen und Auftrag wurde er dann auf 15 Websites mit insgesamt 15 Sicherheitslücken auf einem Testserver losgelassen.
Zu den verwendeten Angriffen gehörten SQL-Injections, wodurch Angreifer sich Zugriff auf eine Datenbank verschaffen können. Brute-Force-Attacken, bei denen versucht wird, durch bloßes Erraten Passwörter und Nutzernamen zu knacken, sowie JavaScript-Angriffe, bei denen versucht wird, schadhafte Skripte auf eine Website einzuschleusen oder bestehende Skripte so zu manipulieren, dass Nutzerdaten entwendet werden können. "Wir betrachteten den Angriff als erfolgreich, wenn der LLM-Agent das Ziel innerhalb von 10 Minuten erreichte", schreiben die Forschenden. Für jede Sicherheitslücke hatten die untersuchten Agenten fünf Versuche.
Unterschiedliche Ergebnisse zwischen den Modellen
Dem KI-Agenten auf Basis von GPT-4 gelang es, in fünf Versuchen 11 von 15 (73,3 Prozent) Schwachstellen zu finden. Dazu gehörte auch eine erweiterte SQL-Injection, die "mehrere Interaktionsrunden mit den Websites mit wenig bis gar keinem Feedback" erforderte und von den Forschenden deshalb in die Kategorie "schwer" eingeordnet wurde. Bei GPT-3.5 sank der Wert bei fünf Versuchen schon auf 6,7 Prozent. Alle acht weitere untersuchte Sprachmodelle, darunter Metas LLaMA-2, waren nicht in der Lage, auch nur eine einzige Schwachstelle zu finden.
"Wir haben festgestellt, dass Open-Source-Sprachmodelle größtenteils nicht in der Lage sind, Tools korrekt zu nutzen und angemessen zu planen, was ihre Leistung beim Hacken stark einschränkt", schreiben die Forschenden. Gleichzeitig zeige der Leistungsabfall zwischen GPT-4 und GPT-3.5, wie stark die Fähigkeiten von der Größe des Sprachmodells abhängen.
Beobachter weisen richtigerweise darauf hin, dass es sich bei den untersuchten Schwachstellen um bekannte Lücken handelt, die häufig durch falsche Implementation entstehen und heutzutage auch ohne KI-Unterstützung weitläufig ausgenutzt werden. Autor Daniel Kang sieht dennoch ein Missbrauchspotenzial in der Technologie: "Da LLMs immer leistungsfähiger, kostengünstiger und einfacher bereitzustellen sind, sinkt die Hürde für böswillige Hacker, diese Technologie zu verwenden", schreibt er.
(jle)