Xiaomis neues KI-Modell: Nahe an der Konkurrenz, aber deutlich günstiger

Xiaomi MiMo-V2 ist eine Familie von KI-Modellen für agentische Systeme. Das Topmodell konkurriert mit Branchenführern, ist über die API aber deutlich günstiger.

vorlesen Druckansicht
Xiaomi-Logo an Gebäudefassade

Xiaomi stellt mit MiMo-V2 eine Modellfamilie vor, die Planung, Wahrnehmung und Sprache für KI-Agenten kombiniert.

(Bild: Mehaniq / Shutterstock.com)

Lesezeit: 4 Min.
close notice

This article is also available in English. It was translated with technical assistance and editorially reviewed before publication.

Xiaomi hat drei KI-Modelle vorgestellt, die gemeinsam die Grundlage für autonome KI-Agenten bilden sollen. Vereinfacht gesagt fungiert das Spitzenmodell MiMo-V2-Pro als das „Gehirn“, das multimodale Modell MiMo-V2-Omni als die „Sinne“ und das Sprachsynthese-Modell MiMo-V2-TTS als die „Stimme“ agentischer Systeme.

Die Entwicklung der KI-Modelle verantwortet Fuli Luo, die zuvor an DeepSeek R1 beteiligt war. In einem Beitrag auf X schreibt Luo, dass sich die agentische Ausrichtung nicht gezielt geplant, sondern aus dem schnellen Wandel vom Chat- zum Agentenparadigma ergeben habe. Sie stellt eine Open-Source-Veröffentlichung der Modelle in Aussicht, knüpft diese jedoch daran, dass die Modelle eine ausreichende Stabilität erreichen.

Das Spitzenmodell MiMo-V2-Pro soll mehrstufige Aufgaben planen, Werkzeuge einbinden und komplexe Arbeitsabläufe ausführen können. Technisch setzt Xiaomi auf ein Expertenmodell mit über einer Billion Parametern, von denen jeweils nur 42 Milliarden aktiv sind. Dadurch wird pro Anfrage nur ein Teil des Modells genutzt, was den Rechenaufwand begrenzen und so auch die Kosten senken kann. Gleichzeitig unterstützt MiMo-V2-Pro Kontextfenster von bis zu einer Million Tokens und kann damit sehr umfangreiche Eingaben verarbeiten.

In Benchmarks ordnet Xiaomi MiMo-V2-Pro im oberen Feld ein, ohne die Spitzenmodelle klar zu übertreffen. Demnach erreicht das Modell im Artificial Analysis Intelligence Index eine Platzierung unter den globalen Top 10 sowie hohe Werte in agentenorientierten Tests wie ClawEval und PinchBench.

So schneidet im Xiaomi MiMo-V2-Pro im Vergleich ab.

(Bild: Xiaomi)

Vor der offiziellen Vorstellung tauchte MiMo-V2-Pro bereits unter dem Namen „Hunter Alpha“ auf Plattformen wie OpenRouter auf, wo das anonym veröffentlichte Modell sich in kurzer Zeit unter den meistverwendeten Systemen etablierte. Unter Entwicklern wurde zunächst spekuliert, es könnte sich um ein neues Modell von DeepSeek handeln.

Videos by heise

Xiaomi hebt die Kostenstruktur bei der Nutzung über die API als zentrales Argument hervor. Für größere Kontextlängen bis zu einer Million Tokens werden rund zwei Dollar pro Million Input-Tokens und sechs Dollar für Output-Tokens fällig. Zum Vergleich: Claude Sonnet 4.6 liegt bei etwa drei beziehungsweise 15 Dollar, Claude Opus 4.6 bei fünf und 25 Dollar pro Million Tokens.

Das multimodale Modell MiMo-V2-Omni ergänzt das auf Planung spezialisierte MiMo-V2-Pro um eine wahrnehmende und ausführende Komponente. Xiaomi zufolge verarbeitet das Modell Bild-, Video- und Audiodaten gleichzeitig, um Situationen zu verstehen, Handlungen abzuleiten und digitale Aufgaben auszuführen.

Xiaomi illustriert dies anhand mehrerer Anwendungsfälle: von der Analyse von Dashcam-Videos und Filmszenen über die Zusammenfassung eines siebenstündigen Podcasts bis hin zu Browser-Aufgaben mit OpenClaw, einem automatisierten Einkauf sowie der Erstellung und dem Upload eines kurzen Videos auf TikTok. Xiaomis Ziel ist es, dass MiMo-V2-Omni künftig Aufgaben nicht nur über Minuten, sondern über Stunden oder Tage hinweg planen und auch physische Systeme, etwa in der Robotik, steuern kann.

Während MiMo-V2-Pro Aufgaben plant und MiMo-V2-Omni sie in Handlungen umsetzt, soll MiMo-V2-TTS die sprachliche Kommunikation mit Nutzern übernehmen: Das Sprachsynthese-Modell erzeugt gesprochene Antworten in Echtzeit und soll Tonfall und Sprechweise an den jeweiligen Kontext anpassen können. Derzeit unterstützt MiMo-V2-TTS nur Englisch und Chinesisch, Xiaomi will die Sprachabdeckung jedoch künftig erweitern.

(tobe)