LLM: Alibabas Qwen3 zeigt in ersten Tests seine Stärken
Das aktuelle KI-Modell von Alibaba ist deutlich leistungsfähiger als der Vorgänger Qwen2.5. In einigen Bereichen stellt es die Konkurrenz in den Schatten.
(Bild: Erstellt mit KI (Midjourney) durch iX-Redaktion)
- Dr. Christian Winkler
Das lang erwartete neue Qwen-Modell ist am 28. April 2025 erschienen. Nachdem es schon ein paarmal auf Hugging Face und Modelscope sichtbar war und dann wieder verschwand, steht Qwen3 nun allgemein zur Verfügung.
Heterogene Modellfamilie
Wie gewohnt gibt es auch die neue Version in unterschiedlichen Größen, nämlich von 600 Millionen Parametern bis zu 235 Milliarden. Im Gegensatz zu Llama 4 hat Alibaba die kleineren Modelle nicht als Mixture of Experts trainiert. So stehen bei Qwen3 Modelle mit 600 Millionen, 1,7 Milliarden, vier Milliarden, acht Milliarden, 14 Milliarden und 32 Milliarden Parametern zur Verfügung. Im Vergleich zu den vorherigen Qwen2.5-Modellen sind die kleineren (600M bis 4B) jeweils um etwa 10 Prozent angewachsen, die größeren beiden haben ihre Größe praktisch nicht verändert.
Ganz neu stellt Qwen3 aber die großen Modelle auch als Mixture-of-Experts-Modelle zur Verfügung. Das Modell mit 30 Milliarden Parametern benötigt für jede Rechnung "nur" drei Milliarden Parameter, das größere mit 235 Milliarden Parametern dagegen 22 Milliarden. Wer über genügend RAM verfügt, kann also mit dem 30B-Modell sehr schnell Tokens generieren, selbst mit dem 235B-Modell sollte es noch schneller funktionieren als mit dem dichten 32B-Modell.
Videos by heise
Was beim Llama-4-Release etwas überraschte, war das fehlende Reasoning-Modell. Hier ist Qwen3 deutlich konsequenter: Alle Modelle beherrschen Reasoning – wenn man es möchte. Der Parameter enable_thinking veranlasst das Modell dazu, vor einer Antwort "nachzudenken" und diesen Denkprozess auch zur Verfügung zu stellen. Das funktioniert gut und ist enorm praktisch: Man braucht nur ein Modell in das RAM zu laden und kann es je nach Verwendungszweck als Reasoning- oder klassisches LLM verwenden.
Im Blogartikel zum Release von Qwen 3 finden sich interessante Informationen zum Training. Für das Basismodell wurde die Pre-Training-Datenmenge im Vergleich zu Qwen2.5 von 18 Billionen Token auf 36 Billionen Token verdoppelt, dabei haben die Entwickler neben HTML-Dokumenten auch Text aus PDFs verwendet (der mithilfe von Qwen2.5-VL extrahiert wurde). Die älteren Modelle Qwen2.5-Math und Qwen2.5-Coder hat Alibaba verwendet, um synthetische Trainingsdaten zu generieren.
Das Training fand in zwei Phasen statt: die erste mit einer Kontextlänge von 4K und 30 Billionen Token und die zweite mit einer auf 32K erhöhten Kontextlänge, mit anspruchsvollerem Content sowie weiteren Reasoning- und MINT-Fähigkeiten. Besonders spannend ist das Post-Training, das Alibaba in vier Stufen nur für die großen Modelle (32B und 235B) angelehnt an den durch DeepSeek erfundenen Prozess mit zwei Reinforcement-Learning-Phasen durchgeführt hat. Die trainierten Modelle haben die Entwickler anschließend mittels Wissensdestillation auf die kleinen Basismodelle übertragen.
Auf den Model Cards finden sich einige interessante Hinweise, was Alibaba noch verbessert hat. So wird dort behauptet, dass die Reasoning-Fähigkeiten von Qwen3 besser sei als die von QwQ. Außerdem sollen die mathematischen, logischen und Codefähigkeiten von Qwen3 besser sein, auch für kreatives Schreiben sollen sich die Modelle sehr gut eignen. Besonders wichtig scheint, dass Qwen3 stark auf die Zusammenarbeit mit Agenten und MCP optimiert ist. Es handelt sich um ein mehrsprachiges Modell, das über 100 Sprachen beherrscht. Die mögliche Kontextlänge von 32.768 Tokens dürfte für viele Anwendungsfälle genügen. Mit RoPE-Scaling (Rotary Position Embedding) kann man diese (bei manchen Modellen) auf bis zu 128K erhöhen. Neben den Gewichten in Bfloat16-Genauigkeit stehen auch solche mit FP8 zur Verfügung.
Im Gegensatz zur überraschenden Veröffentlichung von Llama 4 scheint Qwen3 äußerst durchdacht zu sein. Anders als Llama 4 kann man es problemlos in der EU verwenden, da die Gewichte nach Apache 2.0 lizenziert sind. Das ist ein kleiner Fortschritt gegenüber den Qwen2.5-Modellen, die man nicht in allen Größen frei verwenden durfte.
Tests mit dem neuen Modell
Wie gut es tatsächlich funktioniert, kann man ausprobieren, denn als offenes Modell lassen sich die Gewichte herunterladen.
Glücklicherweise wurden fast alle Qwen3-Modelle bereits quantisiert, sodass man sie komfortabel von Hugging Face herunterladen und ausprobieren kann. Weil die Modelle verhältnismäßig klein sind, lassen sie sich gut mit llama.cpp ausführen. Ferner sind die Modelle mit GPUs lauffähig, aber abhängig vom verfügbaren RAM kann es bei den größeren Modellen etwas eng werden.
Die Experimente wurden mit Qwen3-32B-Q4_K_M.gguf durchgeführt. Leider kann llama.cpp noch nicht richtig mit dem enable_thinking-Parameter umgehen. Als Abhilfe dient der Anhang /no_think an den Prompt.
Zählen und Rechnen mit Qwen3
Ein erster Test des Modells mit und ohne Reasoning ergibt folgendes Ergebnis:
Wie viele "e" sind in "Erdbeere"?
<think>
Okay, I need to find out how many "e"s are in the word "Erdbeere". Let me write the word out and look at each letter.
E - R - D - B - E - E - R - E
Now, I’ll count the "e"s: 1. The first letter is E (1) 2. The fifth letter is E (2) 3. The sixth letter is E (3) 4. The eighth letter is E (4)
So there are 4 "e"s in the word "Erdbeere".
Actually, let me double check that. I might be counting too quickly.
E - R - D - B - E - E - R - E
1. First letter is E (1)
2. Fifth letter is E (2)
3. Sixth letter is E (3)
4. Eighth letter is E (4)
Yes, that’s 4 "e"s in the word "Erdbeere".
</think>
Wait, I’m using German language here, and in German, capitalization is important. The first letter E is a capital letter, and the others are lowercase. But the question is just asking how many "e"s there are, regardless of case. So I think the answer is still 4.
Actually, wait again. Let me count once more carefully:
E (1) R D B E (2) E (3) R E (4)
Yes, there are 4 "e"s in the word "Erdbeere".
Um die Anzahl der Buchstaben "e" in dem Wort "Erdbeere" zu bestimmen, schauen wir uns das Wort Buchstabe für Buchstabe an:
E - R - D - B - E - E - R - E
Nun zählen wir die Buchstaben "e" (beide Kleinbuchstaben und Grossbuchstaben zählen): 1. Der erste Buchstabe ist E (1) 2. Der fünfte Buchstabe ist E (2) 3. Der sechste Buchstabe ist E (3) 4. Der achte Buchstabe ist E (4)
Die Anzahl der Buchstaben "e" im Wort Erdbeere beträgt somit:
4
Wie viele "E" sind in "Erdbeere"? /no_think
In dem Wort "Erdbeere" sind 4 "E" enthalten.
Hier ist die Aufteilung:
Erdbeere
- Die 1. "E" ist am Anfang
- Die 2. "E" ist an der 4. Stelle
- Die 3. "E" ist an der 5. Stelle
- Die 4. "E" ist am Ende
✅ Ergebnis: 4 E
Qwen3-32B kann Buchstaben auch auf Deutsch zählen. Das geht mit und ohne (!) Reasoning. Damit ist es dem mehr als dreifach so großen Llama 4 deutlich überlegen. Mit dem englischen Wort "strawberry" klappt es auch. Nicht alle Qwen3-Modelle beherrschen das. Das kleinste Modell (0.6B) verzählt sich konsequent, das 1.7B-Modell kann im Reasoning-Modus bereits richtig zählen, das 4B-Modell schafft es auf Englisch ohne Reasoning, im 14B-Modell gelingt es dann auch auf Deutsch.
Bei mathematischen Rätseln sieht es leider nicht so gut aus. Die Faktorisierung von 2^20+1 (1.048.577 = 17 * 61.681) funktioniert leider mit keinem (quantisierten) Qwen3-Modell. An einer Stelle ist immer ein Rechenfehler vorhanden oder das System gerät in eine Endlos-Schleife.
(Bild: DOAG)
Am 19. und 20. November findet die Konferenz KI Navigator erneut in Nürnberg statt. Im Call for Papers suchen die Veranstalter noch Vorträge für die Konferenz.
KI Navigator ist die Konferenz zur Praxis der KI in den drei Bereichen IT, Wirtschaft und Gesellschaft. Sie widmet sich der konkreten Anwendung von künstlicher Intelligenz. Die Vorträge behandeln sowohl die technischen Aspekte der einzelnen Bereiche wie Deep Learning oder LLMs (Large Language Models) als auch den Einsatz im Unternehmen und die Auswirkungen auf die Gesellschaft. Außerdem stehen Gesetze und regulatorische Vorgaben wie den AI Act sowie ethische Aspekte im Fokus.