KI-Update Deep-Dive: Wie zuverlässig sind Benchmarks für LLMs?

Die Leistung eines Prozessors lässt sich recht einfach messen – bei generativer KI wird es hingegen schwierig.

In Pocket speichern vorlesen Druckansicht 1 Kommentar lesen

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externer Podcast (Podigee GmbH) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Podigee GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Lesezeit: 3 Min.

ChatGPT schneidet im Jura-Examen besser ab als Menschen – ChatGPT ist dümmer als ein Grundschüler. Solche Meldungen findet man schon mal nebeneinander am selben Tag. Wie kann das sein? Der Grund für dieses sehr unterschiedliche Abschneiden der großen Sprachmodelle in standardisierten Tests liegt in der Art und Weise, wie das vermeintliche Wissen der KI gemessen wird.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externer Podcast (Podigee GmbH) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Podigee GmbH) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Andrea Trinkwalder und Hartmut Gieselmann von der c‘t haben sich angeschaut, wie Benchmarks diese Leistung messen und vergleichen. Dabei hat sich gezeigt, dass es für Forschende extrem schwierig ist, überhaupt mit den Entwicklungssprüngen der Large Language Models Schritt zu halten. Ein besonders umfangreicher Benchmark ist das 2022 von Google-Forschern initiierte Beyond the Imitation Game (BIG-bench). Die Sammlung enthält 204 Aufgabenbereiche, zusammengetragen von 450 Autoren aus 132 Institutionen. Damit deckt BIG-bench eine enorme Bandbreite ab, die vom mathematisch-naturwissenschaftlichen Denken über Analogiebildung bis hin zum nicht ganz klar definierten "gesunden Menschenverstand" reicht. "Davon ist immerhin bisher nur ein Teil obsolet“, erklärt Trinkwalder.

"Ein weiteres Problem bei Benchmarks liegt darin, dass die Fragenkataloge für Benchmarks mitunter ins Training der Modelle einsickern", ergänzt Gieselmann. Auch ähneln sich viele Aufgaben so sehr, dass sie häufig auch ohne Fachwissen beantwortet werden können, weil KIs wirklich hervorragend darin sind, Muster zu lernen. Und deshalb können die auch lernen, allein anhand der Aufgabenstellungen die plausibelste Lösung zu nennen."

Es führt also kein Weg daran vorbei, selbst zu testen, ob ein bestimmtes Modell für die eigenen Zwecke sinnvoll genutzt werden kann. Benchmarks sind da nur ein erster Anhaltspunkt. "Wichtig ist zum Beispiel die Frage, ob das Modell auch mit Deutscher Sprache trainiert wurde", gibt Trinkwalder zu bedenken. Idealerweise kann man das Modell dann mit den eigenen Anforderungen testen und sehen, wie es damit umgeht: "Wie reagiert es da darauf, wenn ich es auf Deutsch befrage, wenn ich aus meinem Fachbereich da eine Frage stelle? Und dann werde ich sehr schnell feststellen, ob dieses Modell vielleicht trotz des guten Abschneidens im Benchmarkt für meinen Bereich vollkommen ungeeignet ist."

Es muss also immer wieder der Mensch in der Schleife drin sein und darauf schauen, wie gut KI in einem bestimmten Bereich einsatzbereit ist. Die Vorstellung, das die 20 bis 30-prozentige Fehlerquote von ChatGPT momentan nur eine Kinderkrankheit ist, die man nächste Woche behoben haben wird, sei unrealistisch. Da sind sich die beiden c’t-Experten einig. "Darum müssen wir vor allen Dingen lernen, nicht den Maschinen zu trauen, sondern kritisch draufzugucken. Im Benchmark wurden 89 Prozent erreicht. Was wurde denn da überhaupt getestet? Was für Fragen sind das? Wie wurde darauf geantwortet?", gibt Gieselmann zu bedenken. "Trotz guter Testergebnisse den kritischen Blick darauf zu behalten, das ist, glaube ich, ganz wichtig."

(igr)