KI: Wie Benchmarks die Leistung großer Sprachmodelle messen und vergleichen

Mit vielen Versprechen huldigen Entwickler, Firmen und Medien gerne Sprach-KIs. In der Praxis folgt meist die große Ernüchterung. Warum ist das so?

Artikel verschenken
In Pocket speichern vorlesen Druckansicht
, KI Midjourney  Bearbeitung c’t

(Bild: KI Midjourney | Bearbeitung c’t)

Lesezeit: 14 Min.
Inhaltsverzeichnis
Mehr zum Thema Künstliche Intelligenz (KI)

Um Sprach-KIs untereinander und mit dem Menschen zu vergleichen, ersinnen Forscher immer ausgeklügeltere Testverfahren. Doch die Vermessung von GPT-4, Llama, Bloom und Co. nebst ihren zahllosen Ablegern ist weder eine exakte noch eine simple Wissenschaft. Vor allem wird sie immer komplexer, je redegewandter und universeller die künstlich intelligenten Sprachgeneratoren werden.

Benchmarks und Metriken halten mit den enormen Entwicklungssprüngen der Large Language Models (LLMs) kaum Schritt; manche sind schon bei ihrer Veröffentlichung angezählt.

Um dem zu begegnen, tragen Institute und Unternehmen mittlerweile per Crowdsourcing riesige, sich interaktiv entwickelnden Aufgabensammlungen zusammen, ersinnen möglichst knifflige Probleme und differenzierte Testszenarien oder veranstalten spannende Shootouts mit Mensch, Maschine und Rangliste.