Meta schummelt bei Benchmark von Llama 4

Meta hat bei den Ergebnissen von Llama 4 der Chatbot-Arena ein bisschen geschummelt. Man experimentiere, erklärt Meta.

(Bild: Tada Images/Shutterstock.com)

08.04.2025, 10:14 Uhr

Lesezeit: 3 Min.

Von

Eva-Maria Weiß

Vor wenigen Tagen ist Llama 4 in zwei Versionen herausgekommen. Meta hat einen Blogbeitrag dazu verfasst, in dem hervorgehoben wird, dass die offenen Modelle in einigen gängigen Benchmarks mindestens genauso gut oder besser abschneiden als die geschlossenen Konkurrenz-Modelle von OpenAI und Google. Offenbar hat Meta da allerdings ein bisschen geschummelt. Konkret geht es um das Abschneiden in der LM Arena.

Dort bewerten Menschen die Ergebnisse von Chatbots. Sie entscheiden, welches KI-Modell ihnen besser gefällt und damit besser abschneidet. Entsprechend gibt es Punkte – einen ELO-Score. Laut Metas Blogbeitrag lag dieser von Llama 4 Maverick bei 1417. Ein Ergebnis, das besser ist als GPT-4o und etwas unter Googles Gemini 2.5 Pro liegt. Doch dann haben aufmerksame Tester festgestellt, dass die Version von Llama 4 Maverick, die in der Arena antritt, nicht dieselbe ist, die nun von Meta verfügbar gemacht wurde.

Llama 4 Modell optimiert für den Chat

Das Modell, das getestet werden konnte, trug die Bezeichnung "Llama 4 Maverick optimized for conversationalty". Wie viel Unterschied diese Abwandlung macht, ist unklar. Grundsätzlich ist das Abschneiden in der Chatbot-Arena kein besonders aussagekräftiger Benchmark. Er hängt schließlich von den Menschen ab, die die Ergebnisse bewerten, und die können völlig unterschiedliche Herangehensweisen haben.

Videos by heise

Meta hat auf Nachfrage von heise online geschrieben, man experimentiere mit allen möglichen Versionen. Es habe sich um eine Chat-optimierte Version gehandelt, man teste verschiedene Versionen und sei nun gespannt, was Entwickler mit dem veröffentlichten Modell machen.

Es ist nicht konkret verboten, in der LM Arena angepasste Versionen der Modelle zu testen. Meta hat das Modell auch ganz korrekt als "Llama-4-Maverick-03-26-Experimental" bezeichnet. Es fehlt jedoch der Hinweis darauf, dass die Ergebnisse nicht denen des frei verfügbaren Modells entsprechen.

Kritik, dass Meta Llama 4 direkt anhand der Benchmarks trainiert haben soll, weist Ahmad Al-Dahle, Vice-President generative AI von Meta, direkt zurück. In einem Beitrag bei X schreibt er, sie würden so etwas nie tun. Allerdings gibt es diese Vorwürfe immer wieder – und sie beziehen sich mitnichten nur auf Meta.

Da für das Training der großen KI-Modelle in der Regel alle frei verfügbaren Daten aus allen möglichen Quellen genutzt werden, sind dort oft genug auch jene von gängigen Benchmarks enthalten. Selbst Metas KI-Wissenschafts-Chef Yann LeCun hat bereits kritisiert, dass viele Ergebnisse von KI-Modellen nicht auf Intelligenz oder Schlussfolgerungen zurückzuführen sind, sondern darauf, dass sie gelernt wurden.

Wie The Verge schreibt, hat es auch Verwunderung darüber gegeben, dass Meta die Modelle an einem Samstag veröffentlicht hat. Mark Zuckerberg hat darauf bereits reagiert: Sie seien da halt fertig geworden. Tatsächlich steht Meta auch damit nicht alleine – OpenAI glänzt ebenfalls mit Veröffentlichungen an Wochenenden.