c't 21/2023
S. 20
Titel
KI-Fehler: Benchmarks
Bild: KI Midjourney | Bearbeitung c’t

Trügerische Präzision

Wie Benchmarks die Leistung großer Sprachmodelle messen und vergleichen

„90 Prozent Genauigkeit“, „besser als der Mensch“: So huldigen Entwickler, Firmen und Medien gerne den Fähigkeiten neuer Sprach-KIs. In freier Wildbahn folgt meist die große Ernüchterung, denn fast jeder Chatbot versteigt sich zu hanebüchenen Aussagen und halluziniert munter vor sich hin. Bleibt die Frage: Was genau und womit haben die bloß gemessen?

Von Hartmut Gieselmann und Andrea Trinkwalder

Um Sprach-KIs untereinander und mit dem Menschen zu vergleichen, ersinnen Forscher immer ausgeklügeltere Testverfahren. Doch die Vermessung von GPT-4, LLaMA, Bloom & Co. nebst ihren zahllosen Ablegern ist weder eine exakte noch eine simple Wissenschaft. Benchmarks und Metriken halten mit den enormen Entwicklungssprüngen der Large Language Models (LLMs) kaum Schritt, enthalten häufig Fehler oder entpuppen sich als wenig zielführend.

Deshalb tragen Institute und Unternehmen mittlerweile per Crowdsourcing riesige, sich interaktiv entwickelnde Aufgabensammlungen zusammen, ersinnen möglichst knifflige Probleme und differenzierte Testszenarien oder veranstalten spannende Shootouts mit Mensch, Maschine und Rangliste.

Alle heise-Magazine mit heise+ lesen

3,99 € / Woche

Ein Abo, alle Magazine: c't, iX, Mac & i, Make & c't Fotografie

  • Alle heise-Magazine im Browser und als PDF
  • Alle exklusiven heise+ Artikel frei zugänglich
  • heise online mit weniger Werbung lesen
  • Vorteilspreis für Magazin-Abonnenten
Jetzt unbegrenzt weiterlesen Vierwöchentliche Abrechnung.

Alle Ausgaben freischalten

2,95 € 0,25 € / Woche

Nach Testphase 2,95 € wtl.

  • Zugriff auf alle c't-Magazine
  • PDF-Ausgaben zum Herunterladen
  • Zugriff in der c't-App für unterwegs
Jetzt testen Nach Testphase jederzeit monatlich kündbar.

Ausgabe einmalig freischalten

5,90 € / Ausgabe

Diese Ausgabe lesen – ohne Abobindung

  • Sicher einkaufen im heise shop
  • Magazin direkt im Browser lesen
  • Dauerhaft als PDF behalten

Kommentieren