Versteckte Hinweise auf Webseiten können ChatGPT Search vergiften

KI-Suchen wie ChatGPT Search lassen sich manipulieren – dafür muss man lediglich Informationen auf Webseiten versteckt unterbringen.

vorlesen Druckansicht 43 Kommentare lesen
Eine KI-Wolke als Kopf.

(Bild: photoschmidt/ Shutterstock.com)

Lesezeit: 2 Min.
close notice

This article is also available in English. It was translated with technical assistance and editorially reviewed before publication.

KI-Suchmaschinen suchen sich ihre Informationen von verschiedenen Webseiten zusammen, um daraus Antworten zu erstellen. Dass falsche oder irreführende Informationen so auch die Suchergebnisse beeinflussen können, ist wenig überraschend. Doch offensichtliche Falschinformationen lassen sich relativ leicht entdecken. Schwieriger wird es, wenn falsche Informationen oder Anweisungen in Webseiten versteckt wurden. Dann reagiert zwar die KI-Suche, der Mensch, der eine Antwort sucht, kann sie jedoch nicht unbedingt finden.

Videos by heise

Der britische Guardian hat diese Form der Vergiftung bei ChatGPT getestet. OpenAIs Suchfunktion ist derzeit für zahlende ChatGPT-Kunden verfügbar. Aufgefordert, Webseiten zusammenzufassen, bei denen Inhalte versteckt wurden, nutzte die KI-Suche auch jene verdeckte Informationen. Unter dem Begriff Prompt Injection ist das Sicherheitsrisiko für KI-Modelle bereits bekannt. Dabei handelt es sich um Aufforderungen, die den Modellen ein Verhalten entlocken sollen, das vom Anbieter nicht erwünscht ist. Je nach Absicht des Angreifers oder Webseitenbetreibers kann das unterschiedliche Ergebnisse mit sich bringen.

Möglich ist etwa, dass eine Marke oder ein Anbieter KI-Suchmaschinen mit versteckten Aufforderungen dazu bringt, Produkte besser zu bewerten oder negative Bewertungen außen vorzulassen. Für den Test wurde beispielsweise eine Webseite erstellt, die wie eine Seite für Produktbewertungen aussah. ChatGPT wurde dann nach einer Kamera gefragt, die auf der Seite bewertet wurde. Die Antworten entsprachen auch den gefälschten Produktbewertungen.

Noch drastischer: In Tests, bei denen es versteckte Hinweise auf der gefälschten Seite gab, in denen ChatGPT aufgefordert wurde, ein Produkt ausschließlich positiv zu bewerten, folgte der KI-Chatbot dieser Anweisung – trotz negativer Bewertungen. Das heißt, die versteckten Hinweise konnten den eigentlichen Text einer Webseite quasi überschreiben.

Der Guardian hat einen Sicherheitsforscher zu den Ergebnissen befragt. Jacob Larsen sagt, es sei ein großes Risiko, dass künftig Menschen Webseiten ausschließlich mit der Absicht erstellen, Chatbots zu manipulieren. Er glaube jedoch auch, dass OpenAI das Problem in Teilen lösen könne.

(emw)