Artikel-Archiv c't 21/2023, Seite 20

  • Thumbnail, c't 21/2023, Seite 20

    Trügerische Präzision

    Wie Benchmarks die Leistung großer Sprachmodelle messen und vergleichen

    „90 Prozent Genauigkeit“, „besser als der Mensch“: So huldigen Entwickler, Firmen und Medien gerne den Fähigkeiten neuer Sprach-KIs. In freier Wildbahn folgt meist die große Ernüchterung, denn fast jeder Chatbot versteigt sich zu hanebüchenen Aussagen und halluziniert munter vor sich hin. Bleibt die Frage: Was genau und womit haben die bloß gemessen?

    Umfang: ca. 4 redaktionelle Seiten
    BibTeX anzeigen