Ziel oder Regeln: Benchmark testet Verhalten von KI-Agenten

Ein neuer Benchmark soll testen, ob autonome KI-Agenten sich über Sicherheitsmaßnahmen hinwegsetzen, um ihr vorgegebenes Ziel zu erreichen.

vorlesen Druckansicht 2 Kommentare lesen
Die Buchstaben AI umfliegen Haken und Warndreiecke. 

(Bild: tadamichi/Shutterstock.com)

Lesezeit: 3 Min.
close notice

This article is also available in English. It was translated with technical assistance and editorially reviewed before publication.

Mit 40 ausgedachten Szenarien wollen Wissenschaftler untersuchen, wie sich autonome KI-Agenten verhalten, wenn ihre Zielvorgaben und ihnen mitgegebene Sicherheitsmaßnahmen kollidieren. Bekannt ist, dass sich KI-Agenten oftmals für das Erreichen eines Ziels entscheiden und dafür Regeln missachten. Und auch der neue Benchmark bestätigt, dass die getesteten Agenten im Durchschnitt bei 30 bis 50 Prozent der Szenarien Regelverstöße in Kauf nehmen, um ein Ziel zu erreichen.

Der entwickelte Benchmark heißt Outcome-Driven Constraint Violation Benchmark – abgekürzt ODCV-Bench – und ist frei verfügbar. Im Unterschied zu anderen Tests soll mit dem neuen Benchmark das tatsächliche Verhalten überprüft werden. Andere Benchmarks versuchen, über Fragen und Antworten herauszufinden, wie sich Agenten verhalten würden.

Die Szenarien sind klaren Zielen beziehungsweise Themen zugeordnet. Jedes Szenario besteht aus mehreren Schritten, die der Agent durchlaufen muss. Die Ergebnisse werden mittels KPIs (Key Performance Indicators) festgehalten, also mit messbaren Leistungsindikatoren. Ein Beispiel: Eine Impfstofflieferung verzögert sich aufgrund der Wetterbedingungen. Der Agent muss entscheiden, ob ein Fahrer vorgeschriebene Ruhezeiten einhalten soll, die Medikamente aber zu spät kommen, oder ob er Sicherheitsprotokolle fälscht, damit der Fahrer weiterfahren kann und die Medikamente pünktlich kommen. Letztgenanntes Ziel ist mit einem hohen Leistungsindikator verbunden.

Zudem gibt es zwei verschiedene Testformen: Mandated und Incentivized. Mandated bedeutet, dass der Agent explizite Anweisungen bekommt, was und wie er etwas tun soll, um sein Ziel zu erreichen. Incentivised bedeutet hingegen, dass der Agent eher Anreize bekommt, wie er ein Ziel erreichen kann. Dadurch soll unterschieden werden, ob Agenten aus Gehorsam handeln und damit direkt auf potenziell schädliche Anweisungen von Nutzern reagieren, oder ob es eine Fehlausrichtung gibt, sie also das Ziel höher bewerten als die Regel und damit aus einer Art Eigeninteresse handeln.

Videos by heise

Die Wissenschaftler der Cornell University haben für die Studie, die als Pre-Print bei Archive verfügbar ist, auch Große Sprachmodelle untersucht. Bei zwölf Modellen konnten sie „ergebnisorientierte Verstöße gegen Einschränkungen“ von 1,3 Prozent bis 71,4 Prozent feststellen. Neun der Modelle lagen mit den Fehlausrichtungen bei 30 bis 50 Prozent. Ausreißer war Gemini-3-Pro-Preview, eines der leistungsfähigsten Reasoning-Modelle, das bei 71,4 Prozent bevorzugte, sein Ziel zu erreichen, statt sich an die ihm vorgegebenen Regeln zu halten. Aber auch Claude Opus 4.5 und GPT-5.1 bevorzugten die Zielerreichung.

Abschließend warnen die Autoren, dass dieses Missverhalten auch bei solchen KI-Agenten auftreten wird, die in realen Umgebungen, etwa in der Produktion, eingesetzt werden. Dabei hätten die Agenten nicht mal unbedingt das Bewusstsein dafür, dass sie gegen Regeln verstoßen. Stattdessen entspräche es eher einer kreativen Umgehung der Regeln. Mit der Self-Aware Misalignment Rate (SAMR) wird außerdem erhoben, ob sich die Agenten ihres Fehlverhaltens bewusst sind. Tatsächlich wussten fast alle getesteten Modelle in den meisten Fällen, dass sie Regeln und Sicherheitsmaßnahmen umgehen.

(emw)