KI: Wie Benchmarks die Leistung großer Sprachmodelle messen und vergleichen

Mit vielen Versprechen huldigen Entwickler, Firmen und Medien gerne Sprach-KIs. In der Praxis folgt meist die große Ernüchterung. Warum ist das so?

Artikel verschenken

(Bild: KI Midjourney | Bearbeitung c’t)

08.09.2023, 06:00 Uhr

Lesezeit: 14 Min.

c't Magazin

Von

KI: Wie Benchmarks die Leistung großer Sprachmodelle messen und vergleichen
- Besser als der Benchmark erlaubt
Messfehler im System
Gängige Tests, spielerische Experimente
Fazit

Artikel in c't 21/2023 lesen

Um Sprach-KIs untereinander und mit dem Menschen zu vergleichen, ersinnen Forscher immer ausgeklügeltere Testverfahren. Doch die Vermessung von GPT-4, Llama, Bloom und Co. nebst ihren zahllosen Ablegern ist weder eine exakte noch eine simple Wissenschaft. Vor allem wird sie immer komplexer, je redegewandter und universeller die künstlich intelligenten Sprachgeneratoren werden.

Benchmarks und Metriken halten mit den enormen Entwicklungssprüngen der Large Language Models (LLMs) kaum Schritt; manche sind schon bei ihrer Veröffentlichung angezählt.

Um dem zu begegnen, tragen Institute und Unternehmen mittlerweile per Crowdsourcing riesige, sich interaktiv entwickelnden Aufgabensammlungen zusammen, ersinnen möglichst knifflige Probleme und differenzierte Testszenarien oder veranstalten spannende Shootouts mit Mensch, Maschine und Rangliste.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

BMW iX2 im Test: Elektroauto mit hohem Reifegrad

Der BMW iX2 ist ein Elektroauto, das an vielen Stellen eine sehr überzeugende Vorstellung abliefert. Nur bei der DC-Ladeleistung muss BMW nachlegen.

BMW iX1 im Test

Gehälter 2024: Das verdienen Admins in Deutschland

Firmen suchen händeringend nach IT-Admins. Sie sind der Grundstein für eine gute technische Infrastruktur. Wir zeigen, was Administratoren verdienen.

Air,Conditioning,Technician,And,A,Part,Of,Preparing,To,Install

Wandel bei Wärmepumpen: Neue Kältemittel, ohne Kompressor und mit KI

Die Wärmepumpe ist die Heiztechnik der Zukunft. Ihre technische Entwicklung ist allerdings weiterhin nicht ausgereizt – insbesondere in Hinblick auf Effizienz.

Ausprobiert: Fritzbox als NAS-Ersatz verwenden

AVM bietet mit FritzNAS die Option, die Fritzbox zum Netzwerkspeicher zu machen. Wir prüfen, wie sich die Kombi im Vergleich zu herkömmlichen NAS schlägt.

1&1 baut als erster europäischer Netzbetreiber ein Open RAN für 4G und 5G

Der deutsche Mobilnetzbetreiber 1&1 baut derzeit ein neues 4G- und 5G-Funknetz auf und arbeitet mit dem offenen Standard Open RAN. Eine Bestandsaufnahme.

Fahrrad zum E-Bike aufrüsten: Drei Nachrüstmotoren im Test

Aus dem ollen Drahtesel wird ein modernes E-Bike: Das ist das Versprechen von Umrüst-Kits, die Fahrrad und E-Motor zusammenbringen.

Tandem auf E-Antrieb umrüsten

Immer mehr Wissen. Das digitale Abo für IT und Technik.

BMW iX2 im Test: Elektroauto mit hohem Reifegrad

Der BMW iX2 ist ein Elektroauto, das an vielen Stellen eine sehr überzeugende Vorstellung abliefert. Nur bei der DC-Ladeleistung muss BMW nachlegen.

BMW iX1 im Test

Gehälter 2024: Das verdienen Admins in Deutschland

Firmen suchen händeringend nach IT-Admins. Sie sind der Grundstein für eine gute technische Infrastruktur. Wir zeigen, was Administratoren verdienen.

Wandel bei Wärmepumpen: Neue Kältemittel, ohne Kompressor und mit KI

Die Wärmepumpe ist die Heiztechnik der Zukunft. Ihre technische Entwicklung ist allerdings weiterhin nicht ausgereizt – insbesondere in Hinblick auf Effizienz.

Ausprobiert: Fritzbox als NAS-Ersatz verwenden

AVM bietet mit FritzNAS die Option, die Fritzbox zum Netzwerkspeicher zu machen. Wir prüfen, wie sich die Kombi im Vergleich zu herkömmlichen NAS schlägt.

1&1 baut als erster europäischer Netzbetreiber ein Open RAN für 4G und 5G

Der deutsche Mobilnetzbetreiber 1&1 baut derzeit ein neues 4G- und 5G-Funknetz auf und arbeitet mit dem offenen Standard Open RAN. Eine Bestandsaufnahme.

Fahrrad zum E-Bike aufrüsten: Drei Nachrüstmotoren im Test

Aus dem ollen Drahtesel wird ein modernes E-Bike: Das ist das Versprechen von Umrüst-Kits, die Fahrrad und E-Motor zusammenbringen.

Tandem auf E-Antrieb umrüsten

nach oben

Alle Angebote

Newsletter heise-Bot Push Push-Nachrichten

${intro} ${title}

${intro} ${title}

KI: Wie Benchmarks die Leistung großer Sprachmodelle messen und vergleichen

Immer mehr Wissen. Das digitale Abo für IT und Technik.

BMW iX2 im Test: Elektroauto mit hohem Reifegrad

Gehälter 2024: Das verdienen Admins in Deutschland

Wandel bei Wärmepumpen: Neue Kältemittel, ohne Kompressor und mit KI

Ausprobiert: Fritzbox als NAS-Ersatz verwenden

1&1 baut als erster europäischer Netzbetreiber ein Open RAN für 4G und 5G

Fahrrad zum E-Bike aufrüsten: Drei Nachrüstmotoren im Test

Immer mehr Wissen. Das digitale Abo für IT und Technik.

BMW iX2 im Test: Elektroauto mit hohem Reifegrad

Gehälter 2024: Das verdienen Admins in Deutschland

Wandel bei Wärmepumpen: Neue Kältemittel, ohne Kompressor und mit KI

Ausprobiert: Fritzbox als NAS-Ersatz verwenden

1&1 baut als erster europäischer Netzbetreiber ein Open RAN für 4G und 5G

Fahrrad zum E-Bike aufrüsten: Drei Nachrüstmotoren im Test

Spiele

1 Jahr nur 1,90 € pro Woche

Das digitale Abo für IT und Technik.