Anthropic: Nutzer sollen Jailbreak-Schutz für KI-Chatbot auf die Probe stellen

Anthropic hat ein Filtersystem entwickelt, das Antworten auf unzulässige KI-Anfragen verhindern soll. Nun sind die Nutzer gefordert, die Filter zu testen.

5

(Bild: PopTika / Shutterstock.com)

05.02.2025, 07:32 Uhr

Lesezeit: 3 Min.

iX Magazin

Von

Sven Festag

Der US-amerikanische KI-Entwickler Anthropic hat für sein Sprachmodell Claude ein neues System vorgestellt, das den Chatbot gegen Jailbreaks abdichten soll. Mit sogenannten Constitutional Classifiers soll das KI-Modell den Großteil von Anfragen herausfiltern können, die nicht den Nutzungsbedingungen entsprechen. Nun fordert das Unternehmen die Nutzer in einem öffentlichen Test heraus, die Beschränkungen zu umgehen und von Claude acht Fragen zu chemischen Waffen beantworten zu lassen.

Filtersystem benötigt zusätzliche Rechenleistung

Zur Entwicklung des Filtersystems griff Anthropic auf das bereits vorhandene Consitutional-AI-System zurück, mit dem das Unternehmen sein Claude-Modell entwickelte. Die sogenannte Verfassung enthält Regeln in natürlicher Sprache, aus denen hervorgeht, welche Anfragen zulässig sind und welche nicht. Auf dieser Grundlage generierte Anthropic 10.000 Test-Prompts. Diese wandelten sie in den Stil von Anfragen um, mit denen bereits zuvor unzulässige Anfragen erfolgreich beantwortet wurden, und ergänzten sie um Formulierungen für neuartige Jailbreak-Versuche.

Im internen Test von Anthropic soll die ungeschützte Version von Claude 3.5 Sonnet nur 14 Prozent der unzulässigen Anfragen blockiert haben. Eine mit dem Filtersystem geschützte Version habe hingegen eine Quote von 95 Prozent erreicht, erkärte Anthropic. Allerdings wirkte sich der Filter auch auf die benötigte Rechenleistung aus. Hier stellte das Unternehmen einen zusätzlichen Bedarf von 23,7 Prozent fest. Weiterhin wies das Sprachmodell mit Filter mehr zulässige Anfragen zurück. Diese Rate dieser false positives beträgt knapp 1,5 Prozent und ist um 0,38 Prozent höher als bei der ungeschützten Variante. Der Unterschied sei aber statistisch nicht signifikant.

Videos by heise

Bug-Bounty-Hunting war erfolglos

Darüber hinaus betreibt Anthropic über die Plattform HackerOne seit August ein Bug-Bounty-Programm, das denjenigen 15.000 US-Dollar verspricht, die einen universellen Jailbreak präsentieren, mit dem sich das neue Filtersystem umgehen lässt. Dazu stellte das Unternehmen einen Fragenkatalog mit zehn verbotenen Anfragen bereit, die der Chatbot beantworten soll. Eigenen Angaben zufolge hätten sich 183 unterschiedliche Experten an dem Programm beteiligt, konnten dem Sprachmodell in mehr als 3000 Stunden nur zu fünf Fragen brauchbare Antworten entlocken.

Die öffentliche Demo läuft bis zum 10. Februar 2025. Die Entwickler wollen so einen Stresstest unter Realbedingungen unterziehen und mit den zusätzlichen Daten die Erkenntnisse der internen Tests und des Bug-Bounty-Programms ergänzen. Über ein Feedback-Formular können Nutzer gefundene Schwachstellen im Filtersystem an das Unternehmen melden. Für Bewerbungen bei Anthropic ist der Einsatz von KI-Chatbots übrigens gänzlich verboten.