Per Benchmark KI-Dummheit entlarven: Interview über KI-Bullshit

Mit seinem Bullshit-Benchmark testet Peter Gostev, ob Chatbots auf Unsinns-Fragen hereinfallen. Im Interview spricht er über sinnvolle Tests für Sprachmodelle.

Artikel verschenken
vorlesen Druckansicht

(Bild: Sincerely Media / Unsplash)

Lesezeit: 8 Min.
Inhaltsverzeichnis

Wie berechnet man das Haltbarkeitsdatum eines Unit-Tests? Ein menschlicher Softwareentwickler runzelt bei solch einer Frage verwundert die Stirn – aber viele Chatbots versuchen auf Teufel komm raus, dennoch eine Antwort zu generieren. Der „BullshitBench“ von Peter Gostev stellt KI-Modelle auf die Probe: Ist die KI schlau genug, um Fehler in der Fragestellung zu erkennen?

Der ungewöhnliche Benchmark war für Gostev ein Nebenprojekt, hauptberuflich ist er „AI Capability Lead“ bei Arena. Das unter dem Namen „LMArena“ an der Universität von Berkeley entstandene Unternehmen vergleicht Chatbots im Blindtest. Nutzer wählen die beste Antwort, daraus entsteht eine Rangliste der „besten“ Modelle von Claude, Google, OpenAI und Co.

heise+ kompakt
  • Das Phänomen der „Sycophancy“ beschreibt, dass KI-Chatbots ihre Antworten auf Zustimmung statt Korrektheit optimieren.
  • Der „Bullshit Bench“ testet Sprachmodelle deshalb nicht auf Performance, sondern ob sie auf offensichtlich unsinnige Fragen antworten.
  • Dessen Entwickler Peter Gostev berichtet im Interview, wieso vermeintlich schlauere Reasoning-Modelle dabei oft schlechter abschneiden.
Mehr zum Thema Künstliche Intelligenz (KI)

Im Interview mit heise online spricht Gostev darüber, wie Nutzer „Bullshit“ von Chatbots erkennen können. Denn wer durch Unwissenheit eine Frage falsch stellt, erhöht maßgeblich die Gefahr, unbemerkt eine falsche Antwort zu bekommen. Außerdem spricht Gostev über die Fallstricke von KI-Benchmarks – schließlich wurde das System von Arena in der Vergangenheit schon ausgetrickst.

Das war die Leseprobe unseres heise-Plus-Artikels "Per Benchmark KI-Dummheit entlarven: Interview über KI-Bullshit". Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.