Llama 4: Meta veröffentlicht neue KI-Modelle

Llama 4 Scout und Maverick sind da, das riesige Trainermodell Behemoth sowie ein Reasoning-Modell von Meta sollen folgen.

vorlesen Druckansicht 4 Kommentare lesen

(Bild: Michael Vi/Shutterstock.com)

Lesezeit: 4 Min.
close notice

This article is also available in English. It was translated with technical assistance and editorially reviewed before publication.

Gleich eine ganze Herde Llamas sei losgetrabt, so Meta. Vier neue KI-Modelle soll es geben, zwei sind bereits veröffentlicht worden: Llama 4 Scout und Maverick sind als offene Modelle verfügbar, Behemoth ist zunächst noch eine Preview, ebenso soll Llama 4 Reasoning bald auf den Markt kommen. Mark Zuckerberg hat in einem Video bei Instagram die neuen Modelle vorgestellt. Dort spricht er auch wieder davon, dass Open-Source-Modelle sich seiner Meinung nach durchsetzen werden und einen Nutzen für jedermann darstellen. Llama 4 ist bereits in Meta AI eingezogen. Und soll dem KI-Assistenten ein "großes Upgrade" verpasst haben.

Llama 4 Scout und Maverick sind nativ multimodale Modelle mit einer Mixture-of-Experts-Architektur und Open-Weight. Multimodal bedeutet, dass Text und Bild im selben Modell verarbeitet werden. Die verschiedenen Experten befinden sich zwar in einem Modell, je nach Art der Frage reagieren aber nur die passenden Experten. Das macht ein so großes Modell deutlich effizienter. Open-Weight meint, dass es sich um teiloffene KI-Modelle handelt – das Wissen eines Modells kann dabei frei heruntergeladen werden, nicht jedoch etwa der gesamte Code und die Trainingsdaten. Dennoch können die Modelle weiter entwickelt werden.

Videos by heise

Scout kommt mit 16 Experten mit jeweils 17 Milliarden Parametern daher – insgesamt also 109 Milliarden Parameter. Die Kontextlänge mit 10 Millionen Token bezeichnet Meta als "führend". Llama 4 Maverick umfasst 128 Experten mit je 17 Milliarden Parametern, also insgesamt 400 Milliarden Parameter. Die Kontextlänge umfasst eine Million Token. Scout passt auf einen einzelnen H100-Grafikprozessor, schreibt Meta, Maverick auf einen H100-Host.

Das noch nicht verfügbare Behemoth soll laut Zuckerberg "riesig" werden. Angekündigt sind 288 Milliarden Parameter bei 16 Experten. Meta nennt das Modell den "idealen Lehrer für Model-Distillation". Das ist eine Methode, um das Wissen eines großen Modells auf ein kleines, kostengünstigeres zu übertragen. Scout und Maverick haben davon bereits profitiert. Behemoth soll in einigen gängigen MINT-Benchmarks GPT-4.5, Claude Sonnet 3.7 und Gemini 2.0 Pro schlagen. Wie immer sind Aussagen über Benchmarks mit Vorsicht zu genießen, Modelle lernen beispielsweise zum Teil die Antworten, richtige Ergebnisse bedeuten nicht unbedingt richtige Schlussfolgerungen.

Für Behemoth sind die Methoden des Pre- und Post-Trainings verbessert worden. Meta schreibt von besseren synthetischen Daten, einem neuen Vision-Encoder sowie verbessertem Fine-Tuning und Reinforcement-Learnings, bei dem nur besonders schwer zu lösende Aufgaben absolviert werden mussten. Schlussendlich kann Llama 4 Maverick dadurch kostengünstiger betrieben werden, als Llama 3.3 70B. Besonderen Wert hat Meta auch auf die Verarbeitung von mehreren Bildern zugleich gelegt. Dadurch können die Modelle visuell besser schlussfolgern, sogar was zeitliche Abläufe anbelangt.

Meta schreibt in einem Blogbeitrag, man habe freilich viele Sicherheitsstandards eingehalten und Tests durchgeführt. Zum Bias heißt es: "Es ist bekannt, dass alle führenden LLMs Probleme mit Voreingenommenheit haben – insbesondere haben sie sich historisch gesehen nach links geneigt, wenn es um debattierte politische und soziale Themen geht. Dies ist auf die Art der im Internet verfügbaren Trainingsdaten zurückzuführen." Wie bekannt oder gesichert das tatsächlich eine Tatsache ist, sei dahingestellt. Bei Llama 4 habe man auf jeden Fall Maßnahmen getroffen, um ausgewogenere Antworten zu bekommen. "Llama 4 schneidet deutlich besser ab als Llama 3 und ist vergleichbar mit Grok."

(emw)