Anthropics Claude bricht bei Gefahren Gespräche ab

"Claude hat den Chat verlassen" – Anthropics KI-Chatbot kann Gespräche dauerhaft beenden. Des eigenen Wohles wegen.

vorlesen Druckansicht 33 Kommentare lesen
Ai,Music,Composer,Or,Generator,With,3d,Rendering,Robot,With

(Bild: Shutterstock)

Lesezeit: 2 Min.
close notice

This article is also available in English. It was translated with technical assistance and editorially reviewed before publication.

Gespräche, die in gefährliche Richtungen gehen, können von Claude ab sofort abgebrochen werden. Das bedeutet, das Gespräch ist damit endgültig beendet. Bisher ist es so, dass Chatbots auf unliebsame Fragen zwar die Antwort verweigern können, etwa sagen, dass sie etwas nicht beantworten können, Anthropic geht nun jedoch einen Schritt weiter. "Claude hat den Chat verlassen" heißt es da.

Diese Sicherheitsmaßnahme soll allerdings zunächst nicht den Nutzenden schützen, es geht dabei um das Wohlsein des KI-Modells. Anthropic schreibt in einem Blogbeitrag, man glaube zwar nicht, dass ein "KI-Modell empfindungsfähig ist oder durch Gespräche Schaden nehmen könne", dennoch habe man ein Programm aufgelegt, in dem es genau um dieses Wohlbefinden von KI-Modellen geht. Das soll eine Art Vorsorge sein.

Zu den Fällen, bei denen Claude Gespräche beendet, gehören etwa Anfragen zu sexuellen Inhalten mit Minderjährigen und Informationen, die für Terror genutzt werden können. Beides wären allerdings auch Inhalte, bei deren Erstellung Anthropic rechtliche Probleme bekommen könnte. Bevor Claude von der Möglichkeit Gebrauch macht, soll der Chatbot allerdings versuchen, Auswege zu finden und die Gespräche in andere Richtungen zu lenken. Sollte ein Nutzer den Eindruck machen, er könnte sich oder andere Personen verletzen, soll Claude explizit nicht das Gespräch verlassen, sondern versuchen, die Gefahr zu bannen.

Gespräche können nur Claude Opus 4.0 und 4.1 beenden.

Anthropic hat zudem die Nutzungsbedingungen seines Chatbots angepasst. Darin wird nun explizit alles verboten, was zur Herstellung von chemischen biologischen, radiologischen und nuklearen Waffen beitragen könnte. Zuvor war nur von Waffen die Rede. Die agentischen Fähigkeiten haben ebenfalls eine Anpassung nötig gemacht. In dem Abschnitt geht es darum, dass keine Computer- oder Netzwerksysteme kompromittiert, sowie Schwachstellen weder aufgespürt noch ausgenutzt werden dürfen. Zudem ist die Erstellung von Malware verboten, genauso wie das Entwickeln von Tools für Ddos-Angriffe.

Videos by heise

Wie auch bei anderen KI-Anbietern hat Anthropic die Nutzungsbedingungen hinsichtlich politischer Inhalte gelockert. War es zuvor verboten, Inhalte für politische Kampagnen sowie Lobbying zu erstellen, ist es nun nur noch verboten, politische Inhalte zu erstellen, die disruptive Auswirkungen auf demokratische Prozesse haben könnten. Die neuen Regeln treten mit dem 15. September 2025 in Kraft.

(emw)