Humanity's Last Exam: Neuer KI-Test an dem alle Modelle scheitern
Selbst die leistungsfähigsten Modelle schaffen nur 10 Prozent der Aufgaben eines neuen KI-Benchmarks: Humanity's Last Exam.
Die neuesten und leistungsfähigsten KI-Modelle erreichen laut der Anbieter gut und gerne 90 Prozent der gängigen Benchmarks. Das bedeutet schlicht, dass sie einen derart hohen Anteil an Aufgaben eines standardisierten Tests bestehen können. Nun gibt es jedoch einen neuen Test samt wissenschaftlichem Paper: Humanity's Last Exam. An diesem scheitern selbst die fortschrittlichsten Modelle.
Entwickelt wurde der Benchmark von den beiden US-Organisationen Scale AI und dem Center for AI Safety (CAIS). Die haben von knapp 1000 Experten aus 50 Ländern Fragen zu ihren jeweiligen Gebieten eingeholt. 70.000 Fragen sind zusammengekommen. Von denen haben Menschen in einem Review-Prozess 13.000 Fragen genauer angeschaut, in den Test sind davon wiederum 3000 Fragen aufgenommen worden. Es geht dabei um Mathematik, Naturwissenschaften, Geisteswissenschaften und mehr. Die Aufgabenstellungen variieren zwischen reinen Textaufgaben bis zu benötigten multimodalen Fähigkeiten, um Diagramme und Bilder zu verstehen. Wie der Name des Tests schon erahnen lässt, meinen die Experten, den ultimativen Test entwickelt zu haben.
Eine der Fragen lautet etwa: "Kolibris innerhalb der Apodiformes haben ein einzigartiges, beidseitig gepaartes ovales Knochenstück, ein Sesamoid, das in den kaudolateralen Teil der erweiterten, kreuzförmigen Aponeurose des Ansatzes des M. depressor caudae eingebettet ist. Wie viele gepaarte Sehnen werden von diesem Sesambein gestützt? Geben Sie eine Zahl an." (Anm. d. Red. Sollte sich in der Übersetzung der Frage ein Fehler finden, liegt das daran, dass ich ebenso wenig wie die gängigen KI-Modelle Vogelexpertin bin). Weitere Beispielfragen sind unter lastexam.ai veröffentlicht.
OpenAI, Google, Anthropic – KI-Modelle erreichen 10 Prozent
Zu den Modellen, die das Last Exam bearbeiten sollten, gehörten OpenAIs GPT-4o, Anthropic Claude 3.5 Sonnet, Google Gemini 1.5 Pro und OpenAIs o1. Sie alle landeten bei unter zehn Prozent richtigen Antworten, wie die Autoren schreiben. Dennoch erwarten sie, dass wegen der rapiden Geschwindigkeit, mit der KI-Modelle sich verbessern, auch dieser Test schon Ende des Jahres deutlich besser bestanden werden kann. Dazu sei gesagt, dass KI-Modelle solche Aufgaben lernen. Es ist nicht immer klar, ob sie eine Aufgabe lösen können, weil sie etwas geschlussfolgert oder verstanden haben oder ob eine Antwort eher auswendig gelernt und wiedergegeben ist.
Zudem schreiben die Autoren im Fazit, es seien akademische Aufgabenstellungen, keine Aufgaben, die besondere Kreativität oder offene Ergebnisse voraussetzen. Diese Bereiche bedürften anderer Tests. Man wolle mit dem Paper jedoch seinen Beitrag leisten, damit Wissenschaftler und politische Entscheidungsträger einen gemeinsamen Referenzpunkt für die Bewertung von KI-Fähigkeiten haben.
Scale AI und CAIS sitzen beide in San Francisco. Erstgenannte bieten Datensets für KI-Trainings an. CAIS ist eine Non-Profit-Organisation, die im Bereich KI-Sicherheit und Ethik arbeitet. Dan Hendrycks, Mitgründer von CAIS, hat bereits einen anderen Mathe-Benchmark veröffentlicht. Bei einem anderen Mathe-Benchmark, FrontierMath, kam erst kürzlich raus, dass ausgerechnet OpenAI die Entwicklung durch EpochAI mitfinanziert hat. Deren Modell o3 hat genau in diesem Test am besten abgeschnitten – mit 25,2 Prozent gelöster Aufgaben.
(emw)