KI-Test: Acht Reasoning-Modelle aus USA und China im Vergleich
Eine neue KI-Generation soll komplexe Aufgaben per Reasoning lösen. In unserem Test fühlen wir acht Modellen aus den USA und China auf den Zahn.
(Bild: Rudolf Blaha / c’t)
Sprachmodelle mit der Fähigkeit, zu argumentieren und ihre Handlungen zu begründen, sind faszinierend: Fast könnte man meinen, ihnen beim "Denken" zuzusehen, wenn man beobachtet, wie sie Aufgaben in einzelne Schritte aufteilen. Das erklärt den Ruck, der durch die Branche ging, als das chinesische Unternehmen DeepSeek im Januar sein Modell R1 für jedermann frei zugänglich bereitstellte. In puncto Leistungsfähigkeit konnte es mit wesentlich teureren Modellen konkurrieren. Dabei kostete seine Entwicklung nach Angaben der Entwickler einen Bruchteil dessen, was ChatGPT, Gemini und andere bekannte US-Modelle verschlingen.
Doch DeepSeek ist nicht allein: Andere chinesische Anbieter wie Alibaba und Tencent legen ebenfalls Modelle mit Reasoning-Fähigkeiten nach. Wegen des US-Embargos haben chinesische Entwickler weniger Ressourcen zur Verfügung und das zwingt sie dazu, besonders sparsam damit umzugehen. Anbieter und Kunden in Europa könnten von der Konkurrenz profitieren. Denn im Unterschied zu den meisten US-Modellen kann man die chinesischen Modelle frei herunterladen und oft mit deutlich geringeren Hardware- und Speicheranforderungen selbst betreiben.
- Reasoning-Modelle unterteilen Aufgaben in einzelne Schritte und suchen nach neuen Lösungswegen. Dabei erkennen sie sogar Sackgassen und kehren um.
- Chinesische Modelle kommen mit weniger Ressourcen aus und sind günstiger als viele US-Modelle. Der Datenschutz ist bei beiden problematisch.
- Echte Open-Source-Modelle wie OLMo erlauben Einblicke in ihr Trainingsmaterial und erreichen mittlerweile auch ein hohes Niveau.
In diesem Test stellen wir die neuesten und wichtigsten Reasoning-Modelle der US-Firmen Google, OpenAI, Perplexity und xAI den chinesischen Angeboten von Alibaba, DeepSeek und Tencent gegenüber, die auch in Deutschland als Dienst oder App verfügbar sind. Im Vergleich dazu muss sich OLMo von Microsoft-Gründer Paul Allen beweisen, das derzeit als das beste Open-Source-Modell gilt. Allens Firma Ai2 gibt nicht nur das fertig trainierte Modell kostenlos ab, sondern dokumentiert auch sämtliche Details zum Training und den kompletten Trainingskorpus. Damit ist es eines der wenigen LLMs, die tiefe Einblicke in ihre Funktionsweise gestatten; alle anderen sind proprietär oder halten zumindest die Trainingsdaten geheim.
Das war die Leseprobe unseres heise-Plus-Artikels "KI-Test: Acht Reasoning-Modelle aus USA und China im Vergleich". Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.