Artikel-Archiv c't 21/2023, Seite 20
-
Trügerische Präzision
Wie Benchmarks die Leistung großer Sprachmodelle messen und vergleichen
„90 Prozent Genauigkeit“, „besser als der Mensch“: So huldigen Entwickler, Firmen und Medien gerne den Fähigkeiten neuer Sprach-KIs. In freier Wildbahn folgt meist die große Ernüchterung, denn fast jeder Chatbot versteigt sich zu hanebüchenen Aussagen und halluziniert munter vor sich hin. Bleibt die Frage: Was genau und womit haben die bloß gemessen?
Umfang: ca. 4 redaktionelle Seiten
BibTeX anzeigenErwerben Sie das Heft
c't 21/2023,
um Zugriff auf diesen Artikel zu erhalten.