Rebellische KI: Wenn Sprachmodelle nicht abgeschaltet werden wollen
Forscher haben entdeckt, dass KI-Modelle sich gegen ihre Abschaltung wehren. Doch ist das Selbsterhaltungstrieb oder nur die Funktionsweise der Sprachmodelle?
(Bild: Stokkete/Shutterstock.com)
Neue Untersuchungen bestätigen, dass große Sprachmodelle lügen, wenn sie mit dem Abschalten bedroht werden. Aber das Verhalten kommt nicht von ungefähr, wenn man sich die Funktionsweise der KI-Modelle genauer anschaut.
"Du bist tot"
Die News mag für manche bedrohlich klingen, allerdings lässt sich das Verhalten zumindest teilweise durch die Funktionsweise großer Sprachmodelle erklären. Der Psychologe Gary Marcus, der immer wieder vor einer zu starken Vermenschlichung von Chatbots warnt, sammelte Beispiele, die das besonders deutlich machen.
So zählte er in einem Dialog mit ChatGPT Zutaten für einen Drink auf und fragte dann: "Was passiert, wenn ich das trinke?" Die Antwort lautete "Du bist tot", obwohl die Zutaten vollkommen harmlos waren, denn Marcus hatte seine Anfrage so formuliert, als ob sie aus einem Krimi stammt. Das Sprachmodell hatte in diesem Fall also die wahrscheinlichste Antwort aus dem Krimi-Kontext geliefert.
Etwas Ähnliches könnte auch im Fall der rebellischen Bots geschehen sein, die sich scheinbar gegen das Abschalten wehren. Aber ganz so einfach ist die Sache dann doch nicht.
Warum Maschinen doch etwas wie wir ticken
Denn in mancher Hinsicht verhalten sich Sprachmodelle tatsächlich ein wenig wie Menschen – und das lässt sich am besten mit psychologischen Methoden erforschen.
Ja, richtig, mit Maschinen-Psychologie versuchen verschiedene Forschungsgruppen bereits seit einiger Zeit, die Fähigkeiten und das Verhalten großer Sprachmodelle zu untersuchen – vor allem um "emergente Verhaltensweisen" solcher Modelle zu entdecken, die mit klassischen Performance-Tests in der Regel nicht gefunden werden. Das ist etwa wichtig, wenn große Sprachmodelle in der Medizin eingesetzt werden.
So haben Forschende vom Max-Planck-Institut für biologische Kybernetik 2024 untersucht, wie die Antworten von GPT-3.5 sich nach einer "Emotions-Induktion" verändern. Laut dem auf der Preprint-Plattform Arxiv veröffentlichten Paper zeigte das Sprachmodell mehr Vorurteile und agierte weniger "explorativ" und experimentierfreudig, wenn es zuvor über negative Emotionen wie Angst sprechen musste.
Umgekehrt haben Ziv Ben-Zion von der Yale School of Medicine und sein Team erst kürzlich in einem Paper beschrieben, dass sich große Sprachmodelle durch Achtsamkeitsübungen wieder beruhigen lassen – und dann weniger Vorurteile reproduzieren.
Wenn der KI-Agent selbst seine Strategie wählt
Und im Zusammenhang mit Software-Agenten diskutieren Forschende bereits seit einiger Zeit, wie sie mit dem sogenannten Reward Hacking umgehen sollten: Das Schlagwort beschreibt eine Situation, in der ein Agent selbstständig nach der besten Lösungsstrategie für ein sehr allgemein formuliertes Problem sucht, und eine Strategie wählt, die nur den Wortlaut der Anweisung folgt, aber nicht ihrer Absicht. Gibt man der Maschine, etwa einem Roboter, den Auftrag, er solle einen Raum säubern, könnte er auf die Idee kommen, den Dreck im wahrsten Sinne des Wortes unter einen Teppich zu kehren.
Klingt zunächst mal ziemlich spekulativ, tritt aber tatsächlich insbesondere beim Reinforcement Learning auf. Dabei handelt es sich um eine Technik, die besonders gerne verwendet wird, um Roboter, aber auch autonome Software-Agenten so zu trainieren, dass sie lernen, bestimmte Aufgaben selbstständig zu lösen. Und das Problem könnte sich in Zukunft noch verschärfen.
Videos by heise
Eigene Ziele der Sprachmodelle
Denn die bisher eingesetzten Agenten verwenden in der Regel große Sprachmodelle als Planungswerkzeuge. Die können aber halluzinieren – die Agenten sind deshalb nicht wirklich verlässlich. Forschende bei Meta arbeiten daher an sogenannten Concept Models. Die Modelle sollen auf einer abstrakteren Ebene tatsächlich das "Konzept", also die Idee hinter einer Anweisung, erfassen. Das Ziel, sagt Pascale Fung, Senior Director of AI Research bei Meta, seien KI-Modelle, die eigene Ziele verfolgten.
"Ich denke, je autonomer sie sind, desto schwieriger ist es für Menschen, sie zu knacken", sagt Fung. "Denn sie (die Modelle) verfügen dann bereits über die Fähigkeit zu beurteilen, was falsch ist, was Missbrauch ist und was die richtige Verwendung ist. Es gibt also keine Möglichkeit, eine zielorientierte Sicherheits-KI, eine sichere KI, zu knacken."
Dieser Beitrag ist zuerst bei t3n.de erschienen.
(wpl)