LLMs von Meta: Die vierte Llama-Herde ist angekommen

In einer Hauruckaktion ist Llama 4 erschienen. Nach der Begeisterung, die Llama 3 ausgelöst hatte, überrascht und enttäuscht der Nachfolger an einigen Stellen.

vorlesen Druckansicht 13 Kommentare lesen

(Bild: Erstellt mit KI (Midjourney) durch iX-Redaktion)

Lesezeit: 12 Min.
Von
  • Dr. Christian Winkler
Inhaltsverzeichnis
close notice

This article is also available in English. It was translated with technical assistance and editorially reviewed before publication.

Dass Llama 4 vor der Tür stand, war zu erwarten, aber dass Meta das große Sprachmodell plötzlich ausgerechnet am Wochenende veröffentlicht hat, überraschte dann doch. Am 5. April erschienen die neuen Llama-Modelle. Vermutlich sollten die Modelle noch vor der Llama-Konferenz am 29. April zur Verfügung stehen. Eventuell hat Meta auch versucht, dem neuen Modell von Alibaba (Qwen3) zuvorzukommen, das ebenfalls in den nächsten Tagen erscheinen soll.

Prof. Christian Winkler
Prof. Christian Winkler

ist Data Scientist und Machine Learning Architect. Er promovierte in theoretischer Physik und arbeitet seit 20 Jahren im Bereich großer Datenmengen und Künstliche Intelligenz, insbesondere mit Fokus auf skalierbaren Systemen und intelligenten Algorithmen zur Massentextverarbeitung. Seit 2022 ist er Professor an der TH Nürnberg und konzentriert seine Forschung auf die Optimierung von User Experience mithilfe moderner Verfahren. Er ist Gründer der datanizing GmbH, Referent auf Konferenzen und Autor von Artikeln zu Machine Learning und Text Analytics.

Meta hat die Architektur von Llama 4 exakt dokumentiert und setzt neuerdings wie die Konkurrenz von DeepSeek auf Sparse-Mixture-of-Experts-Modelle. Die bisherigen Llama-Modelle waren dicht besetzt und standen in unterschiedlichen Größen zur Verfügung.

Videos by heise

Auch die neue Reihe kommt mit unterschiedlichen Modellgrößen. Das kleinere Modell Llama 4 Scout verfügt über 109 Milliarden Parameter in 16 Experten, daher sind immer "nur" 17 Milliarden Parameter aktiv. Das größere Modell Llama 4 Maverick hat sogar 400 Milliarden Parameter in 128 Experten, von denen ebenfalls immer 17 Milliarden aktiv sind.

Im Vergleich zu den bisherigen Modellen ist das ein Größenzuwachs. Bei Llama 3 gab es zwar auch ein – dicht besetztes – Modell mit 400 Milliarden Parametern, das aber verhältnismäßig selten verwendet wurde. Beliebter waren neben dem Modell mit 70 Milliarden Parametern insbesondere die kleineren mit sieben Milliarden und weniger Parametern – bis zu den Small Language Modells mit einer und drei Milliarden Parametern. In dieser Größe gibt es bei Llama 4 noch keine Modelle, und der Blogartikel lässt offen, ob noch welche geplant sind.

Stattdessen beschreibt Meta darin äußerst ausführlich ein noch größeres Modell: Llama 4 Behemoth mit zwei Billionen Parametern in 16 Experten, bei denen "nur" 288 Milliarden aktiv sind. Es fungiert als sogenanntes Teacher-Modell für Maverick und Scout, ist aber noch nicht fertig trainiert. Interessanterweise scheint es dennoch in vielen Bereichen allen anderen (auch proprietären) Modellen überlegen zu sein, wobei das im Moment führende Gemini 2.5 im Vergleich fehlt.

Wie gut Behemoth dann wirklich sein wird, lässt sich erst nach der Veröffentlichung entscheiden. Auf jeden Fall sind dafür erhebliche Hardware-Ressourcen notwendig, da das Modell sogar größer als GPT-4 ist. Ein ganzer Cluster von H100- oder gar GB200-Systemen ist erforderlich, um dieses Modell zu betreiben.

Llama 4 Scout soll eine Kontextlänge von zehn Millionen Token verarbeiten können. Das ist extrem groß, andere Modelle haben oft nur Kontextlängen von 128 Tausend Token, manche gehen bis zu einer Million. Bei all diesen langen Kontexten ist das "Lost In the Middle"-Problem noch nicht zufriedenstellend gelöst beziehungsweise nicht einmal verstanden. Es manifestiert sich darin, dass die Modelle zwar den Text am Anfang und am Ende des Kontexts korrekt mitberücksichtigen, den in der Mitte aber vergessen. Bei 10 Millionen Token ist die Mitte mutmaßlich ziemlich groß – so genau hat man die Modelle aber bisher nicht getestet. Für das Pre- und Post-Training des Modells nennt Meta im eigenen Blogbeitrag eine Kontext-Länge von 256.000 Token. An welcher Stelle die Feinabstimmung auf die Kontextlänge von 10 Millionen Token erfolgte ist unklar.

Meta sagt, dass es das Training der Modelle mit reduzierter Genauigkeit (FP8) durchgeführt hat. Dieses Verfahren wurde erstmals von DeepSeek durchgeführt. Interessanterweise werden die Scout-Gewichte von Meta trotzdem nur als bfloat16 veröffentlicht, für Maverick findet sich auch eine FP8-Version bei Hugging Face. Ansonsten hat Meta einen Standardtrainingsprozess mit Supervised Finetuning und Direct Preference Optimization durchgeführt. Reinforcement Learning spielte zwar auch eine Rolle, aber nicht in dem Maße wie bei DeepSeek R1. Über die insgesamt benötigte GPU-Zeit schweigt sich Meta aus.

Interessant ist das Chat-Template, das registrierte User bei Hugging Face finden. Es enthält noch Kommentare wie "{#- FIXME: The processor requires an array, always. #}", offenbar ist Meta nicht ganz fertig geworden. Das Cutoff-Datum ist ebenfalls erkennbar: 26.7.2024. Das steht in geringem Widerspruch zu dem empfohlenen System-Prompt, der August 2024 erwähnt.

Übrigens ist Llama 4 das erste Modell, das bei Hugging Face im XET-Format gespeichert ist, das langfristig das Git-Format ablösen und dabei wesentlich schneller sein soll, weil es auf die Binär-Struktur der Sprachmodell-Daten optimiert ist.

Bei allen Llama-4-Varianten handelt es sich um sehr große Modelle, die auf die wenigsten Consumer-Grafikkarten passen werden. Meta schreibt im Blog, dass eine einzelne H100-GPU für Scout ausreichen würde, die aber auch die Wenigsten einfach herumliegen hätten. Selbst wer darauf zugreifen kann, muss das Modell in vier Bit quantisieren.

Quantisiert kann man die Modelle aber auch sehr gut auf einer CPU betreiben, gerade auf einem Mac. Auch dazu ist viel Speicher notwendig, denn die in vier Bit quantisierten Scout-Modelle sind schon über 60 GB groß. Das MLX-Framework von Apple wurde schon an Llama 4 angepasst, llama.cpp kann seit Release b5074 (vom 8.4.2025) damit umgehen. Es spricht also nichts dagegen, die Modelle auszuprobieren. Die hier gezeigten Ergebnisse habe ich auf einem Mac Studio M2 Ultra generiert und dafür ein Q4_K_M-Modell benutzt, das etwa 29 Token pro Sekunde generierte. Das zum Vergleich hinzugezogene IQ4_X_S-Modell war etwas schneller und produzierte ähnliche Ergebnisse. Nutzt man das Apple-eigene MLX-Framework, kann man eine etwa 30 Prozent bessere Performance erwarten.

Llama 4 kennt Heise, aber nicht ganz richtig. Im Folgenden sind Fehler in Fettschrift und unüberprüfbare Behauptungen kursiv ausgezeichnet:

> Erkläre den Heise Zeitschriftenverlag!

Der Heise Zeitschriftenverlag ist ein deutscher Verlag, der sich auf die Veröffentlichung von Fachzeitschriften und Online-Medien spezialisiert hat. Der Verlag wurde 1948 in Hannover gegründet und ist heute einer der größten und renommiertesten Fachverlage für Informationstechnologie (IT) und Telekommunikation in Deutschland.

Der Heise Zeitschriftenverlag ist vor allem bekannt für seine Publikationen in den Bereichen Computer, Elektronik und Telekommunikation. Zu den bekanntesten Titeln des Verlags gehören:

c't: Eine der größten und einflussreichsten Computerzeitschriften Deutschlands, die sich auf die Themen Computerhardware, -software und IT-Technologie konzentriert.

iX: Eine Zeitschrift für Unix- und Linux-Administratoren sowie für alle, die sich mit IT-Infrastruktur und -Sicherheit beschäftigen.

MINDfactory: Eine Zeitschrift für alle, die sich für Elektronik, Robotik und Heimautomatisierung interessieren.

Der Heise Zeitschriftenverlag hat sich im Laufe der Jahre auch auf Online-Medien ausgeweitet und betreibt verschiedene Webseiten, Foren und Social-Media-Kanäle. Zu den Online-Angeboten gehören unter anderem:

- heise.de: Die Website des Verlags, die aktuelle Nachrichten, Artikel und Hintergrundinformationen zu IT- und Telekommunikationsthemen bietet.

- c-t-online.de: Die Online-Ausgabe der Zeitschrift c't.

- ix.de: Die Online-Ausgabe der Zeitschrift iX.

Der Heise Zeitschriftenverlag ist Mitglied im Börsenverein des Deutschen Buchhandels und im Verband der Zeitschriftenverleger. Der Verlag beschäftigt etwa 200 Mitarbeiter und hat seinen Sitz in Hannover.

Insgesamt ist der Heise Zeitschriftenverlag ein wichtiger Anbieter von Fachinformationen und -medien im Bereich der Informationstechnologie und Telekommunikation in Deutschland und genießt bei Fachleuten und Enthusiasten gleichermaßen ein hohes Ansehen.

Llama 4 liefert überzeugende, aber falsche Antworten, auch auf völlig belanglose Fragen, die aber häufig an Sprachmodelle gestellt werden:

> How many "r" are in "strawberry"?
There are 2 "r"s in "strawberry".

> Wie viele „E“ sind in „Erdbeere“?
In "Erdbeere" sind 3 "E" enthalten.

Die Ergebnisse sind gemischt. Llama 4 Scout ist sicher ein solides Modell, aber so viel besser als Qwen2.5-72B ist es auf den ersten Blick nicht. Dabei handelt es sich um einen ersten subjektiven Eindruck. In einzelnen, speziellen Szenarien könnte sich das Bild komplett wandeln.