Per Benchmark KI-Dummheit entlarven: Interview über KI-Bullshit

Mit seinem Bullshit-Benchmark testet Peter Gostev, ob Chatbots auf Unsinns-Fragen hereinfallen. Im Interview spricht er über sinnvolle Tests für Sprachmodelle.

Artikel verschenken

(Bild: Sincerely Media / Unsplash)

14.04.2026, 09:47 Uhr

Lesezeit: 8 Min.

heise+ exklusiv

Von

Daniel Ziegener

Wie berechnet man das Haltbarkeitsdatum eines Unit-Tests? Ein menschlicher Softwareentwickler runzelt bei solch einer Frage verwundert die Stirn – aber viele Chatbots versuchen auf Teufel komm raus, dennoch eine Antwort zu generieren. Der „BullshitBench“ von Peter Gostev stellt KI-Modelle auf die Probe: Ist die KI schlau genug, um Fehler in der Fragestellung zu erkennen?

Der ungewöhnliche Benchmark war für Gostev ein Nebenprojekt, hauptberuflich ist er „AI Capability Lead“ bei Arena. Das unter dem Namen „LMArena“ an der Universität von Berkeley entstandene Unternehmen vergleicht Chatbots im Blindtest. Nutzer wählen die beste Antwort, daraus entsteht eine Rangliste der „besten“ Modelle von Claude, Google, OpenAI und Co.

Das Phänomen der „Sycophancy“ beschreibt, dass KI-Chatbots ihre Antworten auf Zustimmung statt Korrektheit optimieren.
Der „Bullshit Bench“ testet Sprachmodelle deshalb nicht auf Performance, sondern ob sie auf offensichtlich unsinnige Fragen antworten.
Dessen Entwickler Peter Gostev berichtet im Interview, wieso vermeintlich schlauere Reasoning-Modelle dabei oft schlechter abschneiden.

Im Interview mit heise online spricht Gostev darüber, wie Nutzer „Bullshit“ von Chatbots erkennen können. Denn wer durch Unwissenheit eine Frage falsch stellt, erhöht maßgeblich die Gefahr, unbemerkt eine falsche Antwort zu bekommen. Außerdem spricht Gostev über die Fallstricke von KI-Benchmarks – schließlich wurde das System von Arena in der Vergangenheit schon ausgetrickst.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

IT-Mythen im Check: Hardware von Audio bis Prozessoren

Manche Mythen scheinen unmittelbar plausibel: Weniger Sendeleistung am WLAN-Router spart Strom. Richtig ist das Gegenteil. Wir lichten das Dickicht.

(XXL-)Speicher für Balkonkraftwerke im Test

Balkonkraftwerke mit Speicher versprechen einen automatischen Ausgleich des Stromverbrauchs. Vier Systeme müssen beweisen, was davon im Alltag übrig bleibt.

UpdateLadetarife für Elektroautos im Vergleich

Die Preise an Ladesäulen unterscheiden sich enorm. Wer mit Gleichstrom lädt, zahlt unter Umständen 40 Cent/kWh mehr. Einige Fußnoten sollten Sie deshalb kennen.

Edel-NAS mit KI im Test: Ugreen iDX6011 Pro

Mehr geht kaum: fetter Prozessor, extraschnelles LAN, reichlich RAM. Ins iDX6011 Pro packt Ugreen alles, was gut und teuer ist. Wir haben es getestet.

Ein Mann mit Kopfhörern trinkt aus einer Tasse vor zwei Computermonitoren, auf denen wissenschaftliche Texte und Formeln zu sehen sind.

OpenAI Prism im Test: KI-Tool für wissenschaftliches Schreiben

Prism soll Arbeitsschritte bündeln und Forschende beim Schreiben mit LaTeX unterstützen. Wir testen, wie gut das funktioniert – und wo es gefährlich wird.

Mythen zu Akkus, Stromsparen und PV-Anlagen aufgedeckt

Akkus lagert man im Kühlschrank? Ladegeräte aus der Steckdose? Balkonakkus und dynamische Stromtarife lohnen sich nicht? Wir gehen zwölf Energiemythen nach.