Sprachmodelle lokal betreiben: Fünf Tools vorgestellt

Seite 4: LM Studio und Msty

LM Studio ist das wohl bekannteste Programm, um lokale KI auf einem einzelnen Computer, also nicht serverbasiert, zu nutzen, und vor allem bei Windows-Nutzern beliebt. Es entwickelt sich schnell weiter, Updates mit neuen Features erscheinen oft mehrmals monatlich. Es ist ausgereifter als Jan und für den privaten Gebrauch kostenlos, aber nicht Open Source. Installationspakete gibt es für Windows, macOS und Linux.

Auf Macs mit Prozessoren ab M2 nutzt das Programm Apples MLX, vorausgesetzt, als Betriebssystem kommt mindestens macOS 14 (Sonoma) zum Einsatz. Die Linux-Versionen werden etwas stiefmütterlich behandelt. Das Installationsprogramm ist ein AppImage, das Ubuntu ab 20.4 erfordert, wobei Versionen ab Ubuntu 22 nicht mehr gut getestet werden.

Für RAG akzeptiert LM Studio nicht nur PDFs, sondern auch DOCX- und Textdateien. Prompt-Templates der Modelle lassen sich anpassen, wofür LM Studio die Jinja Templating Engine verwendet. Auch bei LM Studio lässt sich auf eine API zugreifen, und zwar entweder im OpenAI-Kompatibilitätsmodus oder mit eigener REST-API, die stärker auf den Betrieb mehrerer Modelle zugeschnitten ist. LM Studio selbst hält sich aber mit konkreten Anwendungsbeispielen der API zurück. Jedoch finden sich im Netz einige Anleitungen, wie man beispielsweise KI-Plug-ins von IDEs mit der API verbindet.

Ein Alleinstellungsmerkmal von LM Studio ist seit Februar 2025 das spekulative Decoding. Das ist ein Verfahren, bei dem ein kleines Modell einem größeren Token "vorschlägt", die das große Modell dann nach einer Überprüfung entweder akzeptiert oder verwirft, um selbst welche zu generieren. Das Verfahren soll schneller sein als eine komplette Generierung durch das große Modell, erfordert aber mehr Speicher und Rechenleistung.

Msty

Weniger bekannt als LM Studio, aber weitaus moderner und mit mehr Features ausgestattet ist Msty des kleinen US-Start-ups CloudStack LLC. Wie LM Studio ist es nicht Open Source, aber für den privaten Gebrauch kostenlos. Die Nutzungsbedingungen verbieten die Verwendung der kostenlosen Version für jeglichen beruflichen Zweck explizit.

Msty setzt auf Ollama auf und bringt eine eingebettete Version mit. Aber auch externe Ollama-Server lassen sich anbinden. Das ermöglicht praktische hybride Anwendungsfälle: Zu Hause dient der Gaming-PC mit der RTX 4090 als Ollama-Endpunkt und stellt größere Modelle bereit, im Büro vielleicht ein dedizierter kleiner GPU-Server. Für unterwegs liegen ein oder zwei kleinere Sprachmodelle auf der SSD des Laptops. Die Modelle der Großen, also von OpenAI, Anthropic, DeepSeek und so weiter, kann Msty natürlich auch alle ansprechen, API-Key vorausgesetzt.

Msty besitzt ein paar interessante Features wie parallelen Chat mit mehreren Modellen und die Möglichkeit, ganze Ordner auf einmal zu einem Knowledge Stack hinzuzufügen, den das Programm dann in Embeddings für RAG umwandelt.