Artikel-Archiv | c't KI-Praxis, Seite 34 | heise magazine

Wie Benchmarks Sprach-KIs vermessen

„90 Prozent Genauigkeit“, „besser als der Mensch“: So huldigen Entwickler, Firmen und Medien gerne den Fähigkeiten neuer Sprachmodelle. In freier Wildbahn folgt meist die große Ernüchterung, denn fast jeder Chatbot versteigt sich zu hanebüchenen Aussagen und halluziniert munter vor sich hin. Bleibt die Frage: Was genau und womit haben die bloß gemessen?

Umfang: ca. 5.66 redaktionelle Seiten
BibTeX anzeigen

Erwerben Sie das Heft
c't KI-Praxis,
um Zugriff auf diesen Artikel zu erhalten.

Anmelden und Artikel sofort lesen

Dieser Artikel ist nicht Teil der Abonnements von Heise Medien.

@article{34--39|c't Special 11/2023, author = {Hartmut Gieselmann, Andrea Trinkwalder}, title = {Wie Benchmarks Sprach-KIs vermessen}, journal = {c't Special}, volume = {11}, year = {2023}, pages = {34--39}, }