Artikel-Archiv | c't 21/2023, Seite 20 | heise magazine

Trügerische Präzision

Wie Benchmarks die Leistung großer Sprachmodelle messen und vergleichen

„90 Prozent Genauigkeit“, „besser als der Mensch“: So huldigen Entwickler, Firmen und Medien gerne den Fähigkeiten neuer Sprach-KIs. In freier Wildbahn folgt meist die große Ernüchterung, denn fast jeder Chatbot versteigt sich zu hanebüchenen Aussagen und halluziniert munter vor sich hin. Bleibt die Frage: Was genau und womit haben die bloß gemessen?

Umfang: ca. 4 redaktionelle Seiten
BibTeX anzeigen

Leseprobe ansehen

Erwerben Sie das Heft
c't 21/2023,
um Zugriff auf diesen Artikel zu erhalten.

Anmelden und Artikel sofort lesen

@article{20--23|c't 21/2023, author = {Andrea Trinkwalder, Hartmut Gieselmann}, title = {Trügerische Präzision}, subtitle = {Wie Benchmarks die Leistung großer Sprachmodelle messen und vergleichen}, journal = {c't}, volume = {21}, year = {2023}, pages = {20--23}, }