Metas LLM-Konferenz LlamaCon: Llama verfolgt den Platzhirsch

Die teilweise live übertragene Konferenz zeigte keine neuen Modelle, aber einige interessante Gespräche zur Zukunft von LLMs und multimodalen Modellen.

vorlesen Druckansicht 1 Kommentar lesen

(Bild: Erstellt mit KI (Midjourney) durch iX-Redaktion)

Lesezeit: 7 Min.
Von
  • Dr. Christian Winkler
Inhaltsverzeichnis
close notice

This article is also available in English. It was translated with technical assistance and editorially reviewed before publication.

Am 29. April fand die erste Konferenz zu den großen Llama-Sprachmodellen von Meta statt. Interessierte können sich die Aufzeichnungen der Keynotes und der Abschlussveranstaltung anschauen.

Wer sich nur für die Ergebnisse interessierte, brauchte die Konferenz nicht vollständig zu schauen, da das Debriefing bereits vor der Konferenz im Meta-Blog stand. Dort steht auch, dass Meta das erwartete Reasoning-Modell nicht angekündigt hatte. Wer etwas in die Richtung sucht, kann beispielsweise auf Qwen3 ausweichen.

Videos by heise

Die öffentlich verfügbaren Inhalte beschränken sich auf die Keynote, den Fireside-Chat von Mark Zuckerberg mit Ali Ghodsi, dem Chef und Gründer von Databricks, sowie die Diskussion zwischen Mark Zuckerberg und Microsoft-Chef Satya Nadella.

Den Anfang der Konferenz machte Chris Cox, der Chief Product Officer von Meta. Sein Vortrag fokussierte sich hauptsächlich auf die neuen Llama-4-Modelle, die Meta von vornherein multimodal trainiert hat. Das ist tatsächlich ein Differenzierungsmerkmal gegenüber anderen neuen Modellen wie Qwen3 oder GLM, die sich hauptsächlich auf Text konzentrieren. Dass Cox wenig auf kleine Modelle oder Reasoning-Modelle einging, ist nachvollziehbar: Solche hat Meta noch nicht im Angebot.

Einige Ankündigungen hatten Cox (und später seine Kollegen aus der Entwicklung) dann aber doch dabei. So steht für Llama ab sofort auch eine API bereit, die man einfach mit unterschiedlichen Programmiersprachen ansprechen kann. Nachdem die API OpenAI-kompatibel ist, kann man sämtliche Tools dafür nutzen und muss nur die URL austauschen. Das ist allerdings ein alter Hut, weil fast sämtliche frei verfügbaren Tools wie llama.cpp, vLLM oder SGLang diese Schnittstelle standardmäßig anbieten. Selbstverständlich kann man darin auch Llama-Modelle hosten. Meta hat es nun als ein Paket zusammengestellt.

Tatsächlich bietet die API aber noch mehr. Sie erlaubt es, eigene Trainingsdaten hochzuladen, die Modelle bei Meta zu trainieren und die veränderten Modellgewichte wieder herunterzuladen. Das ist äußerst praktisch und deutlich offener als bei OpenAI. Auch hier gibt es aber bereits andere Services, die ähnliches bieten und sich dabei nicht nur auf die Llama-Modelle beschränken.

Die Diskussion zwischen Zuckerberg und Ghodsi war interessant. Ghodsi erzählte, dass in vielen Kundenprojekten bereits Sprachmodelle zum Einsatz kommen. Ob man sich seiner Behauptung anschließen möchte, dass RAG und Information Retrieval überflüssig werden, wenn man generative Modelle mit genügend hoher Kontextlänge verwenden kann (Llama hat bis zu zehn Millionen Token im Kontext), ist allerdings fraglich. Effizienz spielt dabei auch eine entscheidende Rolle, und dabei sind Embedding-Modelle und Vektordatenbanken den generativen Modellen um viele Größenordnungen überlegen. Das hätte allerdings nicht gut zum Tenor der Konferenz gepasst.

Über Effizienz sprach Ghodsi aber selbst noch und wünscht sich kleinere Modelle. Zuckerberg erwähnte das interne Projekt "Little Llama", das solche Features haben soll. Das ebenfalls von Ghodsi nachgefragte Reasoning und die engere Integration von Agenten kann Meta im Moment noch nicht bieten. All das wird durch die am Vorabend der Konferenz vorgestellten Qwen3-Modelle von Alibaba viel besser abgedeckt. Das Wort Qwen wurde immerhin am Rande kurz erwähnt.

Waren bei der Keynote (die live auf Facebook und YouTube übertragen wurde) noch 30.000 Teilnehmerinnen und Teilnehmer online, reduzierte sich die Zahl beim nächsten Programmpunkt schnell auf unter 10.000. Eigentlich erstaunlich, denn man sollte erwarten, dass Zuckerberg das Publikum stark anzieht.

Nach einer fünfstündigen (!) Pause ging es schließlich weiter. Vermutlich fanden parallel andere Sessions statt, aber dank der schlechten Kommunikation von Meta fühlte man sich als Remote-Beobachter außen vor.

Interessant ist, dass sich Mark Zuckerberg ausgerechnet Satya Nadella als Gesprächspartner ausgesucht hat. Wegen der neuen Entfremdung zwischen Microsoft und OpenAI hat Nadella das Gesprächsangebot vermutlich gerne angenommen. Allerdings bewegte sich die Diskussion lediglich an der Oberfläche, Nadella erschien technisch deutlich versierter und wies auf die Fortschritte hin, die sich in den letzten Jahren insgesamt für die IT ergeben haben, auch wenn Moore’s Law nicht mehr uneingeschränkt gilt.

Spannend wurde es, als Zuckerberg fragte, wie hoch der Anteil des generierten Codes bei Microsoft ist. Nadella erwähnte 20 bis 30 Prozent und erläuterte noch differenzierter, dass es auf die Art des Codes ankommt und Code für Testfälle besonders gut generiert werden kann. Auf die Gegenfrage, wie das Verhältnis denn bei Meta aussähe, wusste Zuckerberg keine Antwort. Nadella sprach auch viel über Agenten, die in der Softwareentwicklung eine große Rolle spielen. Es wird sich zeigen, ob der Hype in absehbarer Zeit auch wirklich zu nutzbarer Software führt.

Zuckerberg lobte schließlich noch die eigenen Llama-Modelle und behauptete, dass Maverick ebenso gut sei wie DeepSeek – aber viel kleiner. Letzteres ist unbestritten richtig, aber im (neuerdings umstrittenen) LM Arena-Benchmark ist Maverick auf Platz 38, während DeepSeek Platz Sieben einnimmt. Bei Zuckerbergs Aussage war wohl der Wunsch der Vater des Gedankens.

Die Diskussion ging dann noch etwas weiter über Infrastruktur und immer kleinere Modelle. Zuckerberg erklärte, dass die Llama 4-Modelle so gebaut seien, dass sie gut auf H100-GPUs laufen, weil Meta das Setup intern verwendet. Da nur einige wenige Zugriff auf solche Hardware haben, werden für die tägliche Arbeit noch viel kleinere Modelle benötigt. Wer die wesentlich kleineren Qwen3-Modelle kennt, die in ihrer Performance absolut mit Llama 4 konkurrieren, konnte bei Zuckerbergs Aussage schmunzeln.

Auch wenn Meta die LlamaCon organisiert hat, wurde im Gespräch klar, dass Satya Nadella deutlich konkretere Zukunftsvisionen für große Sprachmodelle hat als Mark Zuckerberg. Interessant wird es, ob die beiden Unternehmen ihre Zusammenarbeit weiter verstärken werden.

Immer wieder betont wurde Open Source, denn die Llama-Modelle sind frei verfügbar. Für die EU trifft das allerdings nur teilweise zu, da die Lizenz dort den Einsatz der multimodalen Modelle untersagt, und alle Llama-4-Modelle sind multimodal. Darüber und auch über die Wettbewerber (mit teils deutlich liberaleren Lizenzen) wurde gar nicht gesprochen. Gerade unter dem Aspekt ist es schade, dass keine Fragen aus dem Publikum möglich waren.

So bleibt das Gefühl, dass Meta aus der Veranstaltung mehr hätte machen können. Nach dem kontroversen Llama-4-Release hat man ohnehin das Gefühl, dass aus dem einstigen Open Source-Marktführer Meta bei Sprachmodellen lediglich einer der zahlreichen Verfolger geworden ist. Und das momentan mit eher moderatem Erfolg. Das kann sich schnell wieder ändern: Vor einem Jahr hätte vermutlich niemand damit gerechnet, dass heute ausgerechnet Google eine Spitzenposition bei LLMs einnimmt.

Heise-Konferenz zu Machine Learning und KI

(Bild: berCheck/Shutterstock)

Am 20. und 21. Mai findet die Minds Mastering Machines 2025 statt, die Fachkonferenz jenseits des KI-Hypes für Data Scientists, Data Engineers und Developer, die Machine-Learning-Projekte in die Realität umsetzen.

Chrisitan Winkler, der Autor dieses Artikels, hält auf der Konferenz eine Keynote mit dem Titel "Denkende Sprachmodelle".

Darüber hinaus bietet das Programm der Konferenz an zwei Tagen gut 30 Vorträge in drei Tracks unter anderem zu folgenden Themen:

  • Generative AI: Aktuelle Forschungstrends und was das bedeutet
  • Klassisches ML – Vergessene Helden des Alltags
  • Lass' LLMs die Arbeit erledigen: Einführung in Agentensysteme
  • Klinische Entscheidungsfindung mit AlphaFold und Graph-neuronalen Netzen
  • LLM-Security: Die OWASP-Liste der Angriffsvektoren
  • Mit DuckDB schnell und einfach Daten analysieren

(rme)