Ganz schön vermessen

Über das knifflige Benchmarking großer Sprachmodelle

Große Sprachmodelle wie ChatGPT und Bard können viel, weil sie mit nahezu dem gesamten Weltwissen trainiert wurden. Allerdings ist es schwierig herauszufinden, was sie wirklich auf dem Kasten haben. Einer, der das versucht, ist René Peinl von der Hochschule Hof.

Von Andrea Trinkwalder

René Peinl forscht an der Hochschule Hof zur Spracherkennung und Sprach-synthese., Bild: Hochschule Hof — René Peinl forscht an der Hochschule Hof zur Spracherkennung und Sprach-synthese.
*Bild: Hochschule Hof*

c’t: Große Sprachmodelle (Large Language Models, LLMs) wie ChatGPT und Bard schneiden in Benchmarks meist sehr gut ab, mitunter sogar besser als der Mensch. Unter realistischen Bedingungen, etwa im Dialog mit Nutzern, erfüllen sie die Erwartungen häufig nicht. Was ist denn das zentrale Problem beim Benchmarken von Sprachmodellen?

René Peinl: Im Wesentlichen ist es die automatisierte Bewertung, die ihre Grenzen hat. Sie stützt sich meist auf vorgegebene Antworten, die mit aus heutiger Sicht überholten Metriken ausgewertet werden. Diese Metriken setzen auf eine Eins-zu-Eins-Überdeckung der Antwort mit der Ground Truth: also mit dem, was ein Mensch vorher als korrekte Antwort festgelegt hat.