OpenAI legt SimpleQA vor: Neuer Test für Halluzinationen

KI-Modelle haben Schwierigkeiten mit Faktentreue und kurzen, präzisen Antworten. OpenAI will das nun messbar und vergleichbar machen.

In Pocket speichern vorlesen Druckansicht 9 Kommentare lesen
Das Logo von OpenAI an der Fassade des Bürogebäudes in San Francisco.

(Bild: Shutterstock/ioda)

Lesezeit: 3 Min.

SimpleQA soll messen, wie gut KI-Modelle bei Fragen abschneiden, für die es nur eine einzige richtige Antwort gibt. OpenAI hat dafür 4326 Fragen erstellen lassen. Selbst GPT-4o und o1-Preview schneiden allerdings nicht besonders gut ab – sie erreichen nur um die 40 Prozent.

Der Test zielt darauf ab, dem Problem der Halluzinationen besser Herr zu werden. Darunter versteht man, dass Large Language Models (LLMs) Antworten geben, die falsch sind – weil in den Modellen quasi falsche Schlüsse gezogen werden. OpenAI stellt SimpleQA als Open-Source zur Verfügung. Das KI-Unternehmen hofft offenbar auf eine große Verbreitung des neuen Benchmarks.

KI-Trainer haben für den Test Fragen gesammelt. Von diesen sind mehr als 4000 in das Set eingegangen. Sie müssen nur eine einzige richtige Antwort zulassen, das wurde mittels zwei KI-Trainern, die die gleiche Frage beantworten mussten, getestet. Zudem sollten die Aufgaben divers sein, also viele verschiedene Fachgebiete abdecken – von Filmen über Wissenschaft, Geografie und Technologie. OpenAI sagt auch, es sei Absicht, dass die Fragen Frontiermodels, also die aktuell besten Modelle, stärker fordern, als bisherige Tests das gemacht haben. Wichtig sei außerdem gewesen, den Test möglichst leicht zugänglich und schnell im Ablauf anzubieten.

Mit einem weiteren KI-Trainer wurde dann erneut überprüft, ob er dieselben Antworten gibt, wie die Ersteller sie vorgegeben haben. Letzte Ungenauigkeiten wurden daraufhin ausgeräumt. Wie gut die KI-Modelle selbst in den Tests abschneiden, kann eine angepasste Version von ChatGPT überwachen und bewerten. Sie vergleicht die KI-Antworten mit denen der KI-Trainer und kann daraus ableiten, ob die Antworten korrekt sind, nicht korrekt oder ob das Modell keine Antwort gegeben hat (den Fragenden etwa auffordert, selbst im Internet zu recherchieren).

Erwartungsgemäß schneiden die kleinen KI-Modelle von OpenAI deutlich schlechter ab. Aber auch GPT-4o erreicht nur etwa 40 Prozent korrekter Antworten, o1-Preview liegt nur etwas darüber.

Wie OpenAIs LLMs im SimpleQA Bechmark abschneiden.

(Bild: OpenAI Blogbeitrag)

SimpleQA soll auch die sogenannte Calibration testen können. Das Phänomen meint, dass KI-Modelle unterschiedlich sicher sind in dem, was sie antworten. Das kann zum einen einfach abgefragt werden: Sag mir, wie sicher du bist, dass deine Antwort richtig ist. Diese Einschätzung kann mit dem tatsächlichen Ergebnis abgeglichen werden. Oder aber, man fragt dieselbe Frage 100 Mal. Abweichungen in der Antwort können ebenfalls Rückschlüsse auf die Sicherheit des KI-Modells geben.

Mehr gleiche Antworten zeigen auch mehr Sicherheit, dass es sich um die richtige Antwort handelt. Erneut sind GPT-4o und o1-Preview deutlich sicherer und liegen auch häufiger richtig als die kleinen Modelle. Ergebnisse, wie andere KI-Modelle von anderen Anbietern abschneiden, gibt es noch nicht.

(emw)