Model-Schau 1: Schlanke KI-Spezialmodelle im Trend

Die neue Kolumne widmet sich den wichtigsten Neuerungen bei offenen und proprietären Large Language Models.

10

(Bild: pncha.me/Shutterstock)

16.12.2025, 12:19 Uhr

Lesezeit: 14 Min.

Developer

Von

Dr. Christian Winkler

Beim Blick auf Large Language Models vergeht fast keine Woche ohne neue Modelle, die sich in bestimmten Nischen positionieren oder neue Techniken ausprobieren. Das hat uns dazu bewogen, regelmäßig über diese Updates zu berichten. Bei größeren Neuerungen werden wir den geplanten Zweiwochentakt unterbrechen und neue Modelle direkt untersuchen.

Prof. Dr. Christian Winkler beschäftigt sich speziell mit der automatisierten Analyse natürlichsprachiger Texte (NLP). Als Professor an der TH Nürnberg konzentriert er sich bei seiner Forschung auf die Optimierung der User Experience.

Dieses erste Update fällt etwas umfangreicher aus. Aktuelle Modelle finden sich bei Hugging Face oder durch konsequentes Mitlesen im sehr aktiven LocalLLaMa-Subreddit. Gerne nehmen wir auch Vorschläge über Modelle entgegen, die wir uns näher anschauen sollen.

Kleine Spezialmodelle

Der Trend muss nicht zu immer größeren Modellen gehen. Bei Hugging Face finden sich einige Modelle, die sehr beliebt, aber nicht besonders groß sind.

Ganz vorn steht hier VibeThinker von WeiboAI. Das Reasoning-Modell ist vor allem darauf ausgelegt, mathematische Fragen zu beantworten oder Programmcode zu erzeugen. Für diese Aufgaben ist es sehr gut geeignet. Laut den Benchmarks spielt es in der gleichen Liga wie das (ältere) Gemini 2.5 Flash und überholt teilweise sogar DeepSeek R1.

(Bild: Bridgman/AdobeStock)

Am 22. und 23. April 2026 findet die Minds Mastering Machines in Karlsruhe statt. Im Mittelpunkt der von iX und dpunkt.verlag veranstalteten Konferenz stehen praxisnahe Themen von klassischem Machine Learning bis zu LLMs und Agentic AI. Das Programm bietet unter anderem Vorträge zu folgenden Themen:

Predictive Maintenance in der Praxis
Kommunikationsprotokolle für Agentic AI
Embeddings richtig verstehen
MCP sicher im Unternehmen einsetzen
Lokale LLMs in der Praxis

Erstaunlich ist, dass das Modell mit nur 1,5 Milliarden Parametern auskommt. Die anderen genannten Modelle haben 400-mal mehr Gewichte zu verarbeiten und sind dadurch entsprechend langsam. Die Größe spielt besonders bei Coding-Modellen eine entscheidende Rolle: Erstens will man die Modelle möglicherweise auch lokal ausführen, nachdem man sie potenziell feingetunt hat, und zweitens generieren diese Modelle sehr viele Token – je schneller das geht, desto kürzer ist die Wartezeit auf den generierten Code.

Mit vier Milliarden Parametern etwas größer, aber noch spezialisierter ist AesCoder, das mithilfe von GRPO (Group Relative Policy Optimization) auf die Erledigung von Web-Designaufgaben spezialisiert ist.

Konkurrenzfähige offene Modelle von Olmo

Auch wenn man häufig von Open-Source-Modellen spricht, sind meist lediglich die Gewichte der Modelle frei verfügbar. Nur wenige Anbieter veröffentlichen die Trainingsdaten und die Algorithmen, mit denen sie die Modelle trainiert haben. Neben Hugging Face mit SmolLM gibt es offene Trainingsdaten für das Modell Apertus aus der Schweiz und vor allem für die Olmo-Modelle vom Allen AI Institute. Letzteres braucht sich aufgrund der Investitionen durch Microsoft-Mitgründer Paul Allen keine großen Gedanken um die Finanzierung zu machen.

Besonders die jüngsten Olmo-3-Modelle integrieren viele innovative Techniken und machen damit einen gewaltigen Sprung nach vorn. Sie stehen in zwei Größen mit 7 und 32 Milliarden Parametern zur Verfügung. Das größere Modell gibt es in einer Reasoning-Variante, das kleinere zusätzlich noch als Instruction-Following-Modell ohne Reasoning. Für diejenigen, die die Modelle feintunen möchten, stellt Olmo anders als die meisten anderen Anbieter die Basismodelle zur Verfügung.

Videos by heise

Im Vergleich zu anderen Modellen wie Qwen3 hat Olmo 3 deutlich weniger Token im Training erhalten: 5,9 Billionen aus dem Datensatz Dolma 3 Mix. Das macht sich leider in der Modellperformance bemerkbar, die nach ersten Tests nicht mit den Qwen3-Modellen in der gleichen Größenordnung mithalten kann. Die Strawberry-Challenge mit der Frage nach der Anzahl der „e“ in „Erdbeere“ (oder „r“ in „strawberry“) beantwortet das Modell konsequent falsch. Auch die deutschen Sprachfähigkeiten der kleineren Modelle sind nicht besonders gut ausgeprägt:

Chatverlauf Olmo 3 7B — Bei der Antwort von Olmo 3 7B sind nicht nur die Inhalte falsch, auch die sprachliche Ausführung ist mangelhaft (Abb. 1).

(Bild: datanizing)

Chatverlauf Olmo 3 32B — Das Modell Olmo 3 32B macht zwar ebenfalls Fehler, liegt aber häufiger richtig und formuliert deutlich bessere Sätze (Abb. 2).

(Bild: datanizing)

Der Artikel zu Olmo 3 enthält viele Details über die Architektur und das Training des Modells. Das gibt interessante Einblicke in den Trainingsprozess. Insbesondere das Post-Training ist sehr anspruchsvoll, weil Olmo dabei mit unterschiedlichen Datensets arbeitet, um die Qualität zu verbessern. Viele Innovationen gibt es beim Reinforcement Learning des Reasoning-Modells (bei Olmo „Thinking“ genannt).

Einige der GRPO-Optimierungen sind von anderen Modellen bekannt, kommen aber in dieser Kombination erstmals bei Olmo zum Einsatz. Das Modell setzt außerdem die weiterentwickelte Version des Verfahrens Reinforcement Learning with Verifiable Rewards (RLVR) ein, mit dem auch das neue Training von DeepSeek arbeitet. Mit RLVR kann man automatisiert überprüfen, ob Sprachmodelle die richtigen Ergebnisse vorhersagen. Die Besonderheit der weiterentwickelten Version ist, dass man damit Trainingsdaten automatisiert erzeugen kann – in Grenzen und bestimmten fachlichen Domänen.