CriticGPT: OpenAI will mit kritischer GPT-4-Version Fehler in ChatGPT finden

OpenAI hat ein KI-Modell präsentiert, das Fehler in Code finden soll, den ChatGPT ausgibt. Sowohl CriticGPT als auch ChatGPT basieren auf GPT-4.

31

(Bild: Tada Images/Shutterstock.com)

28.06.2024, 10:26 Uhr

Lesezeit: 3 Min.

Von

Eva-Maria Weiß

CriticGPT soll ChatGPT überwachen und Fehler finden. Dabei beruhen beide Anwendungen auf GPT-4. Laut OpenAI schneiden Menschen, die beides zum Coden nutzen, um 60 Prozent besser ab, als Menschen, die nur ChatGPT verwenden. Die kritische Funktion soll im Rahmen des Reinforcement Learning from Human Feedback (RLHF) in den Chatbot einfließen.

RLHF steht für bestärkendes Lernen. Bisher ging es bei dieser Methode um Menschen, die dem Chatbot Feedback geben, das dann wiederum in das Modell einfließt. Es ist eine Art Rückkoppelung, bei der die KI, sehr vermenschlicht gesprochen, auf positives Feedback aus ist, also gelobt werden will, und deshalb besser wird. Menschen geben allerdings sehr unterschiedliches Feedback, positive Rückmeldungen müssen nicht unbedingt richtig sein. Nun soll statt der Menschen ein KI-basiertes Feedback als Schlaufe in ChatGPT einziehen: CriticGPT. Dadurch erhofft sich OpenAI ein besseres und konsistentes Feedback. Allerdings fragt auch CriticGPT nach einer eigenen Fehlereinschätzung den Menschen, ob dieser die Einschätzung bestätigen kann.

Videos by heise

Zunächst ist CriticGPT nur für den Bereich Code gedacht. OpenAI will die Anwendung aber auch auf andere Fähigkeiten ausweiten. Auch mit CriticGPT sind die Vorschläge von ChatGPT nicht immer richtig – das zeigen die 60 Prozent verbesserter Fehlervermeidung, von denen OpenAI spricht. "Mit den Fortschritten, die wir im Reasoning und im Verhalten der Modelle machen, werden die Fehler von ChatGPT immer weniger und immer subtiler", heißt es im Blogbeitrag von OpenAI. Deshalb sei es auch für rein menschliche Feedback-Geber immer schwieriger, Fehler zu erkennen. OpenAI meint, KI-Modelle bekämen "allmählich mehr Wissen" als jede Person.

CriticGPT löst Problem der Halluzinationen auch nicht

OpenAI beschreibt im Blogbeitrag auch die Grenzen von CriticGPT. Beispielsweise habe man das Modell nur mit relativ kurzen Antworten von ChatGPT trainiert, längere Antworten müssten erst noch folgen. KI-Modelle halluzinieren, steht da außerdem ganz deutlich, das könne weiterhin zu Fehlern führen, trotz CriticGPT und bewerteten Antworten. Fehler aus der realen Welt können in das Modell übertragen werden, von CriticGPT erkannte Fehler seien bisher anderer Natur, sie fokussieren nur auf einzelne Fehlerquellen, die man separieren kann. Manche Antworten seien zudem so komplex, dass kein Expertenmodell sie korrekt evaluieren könne.

Ansätze, KI-Modelle sich gegenseitig kontrollieren zu lassen, um Halluzinationen und Konfabulationen zu erkennen, gibt es schon lange. Inhaltlich falscher Output ist ein großes Problem der aktuellen KI-Chatbots. Metas Forschungsleiterin Naila Murray sagt beispielsweise, es sei sogar eine der Grenzen, weshalb Große Sprachmodelle so keinen Einsatz in kritischen Bereichen, wie Kreditwürdigkeit oder im Justizsystem finden können.