LM Studio erlaubt Ausprobieren lokaler DeepSeek-Modelle auf Apple-Silicon-Macs

Der Hype um das chinesische Sprachmodell DeepSeek ist groß. Wer ist nicht via Web oder App ausprobieren will, kann das auch lokal mit LM Studio.

vorlesen Druckansicht
Tief tauchen mit DeepSeek: Illustration des Logos

Tief tauchen mit DeepSeek: Das geht auch lokal auf dem Mac.

(Bild: durch Mac & i mit Midjourney erstellt)

Lesezeit: 3 Min.
close notice

This article is also available in English. It was translated with technical assistance and editorially reviewed before publication.

Große Sprachmodelle muss man nicht immer auf dem Server einer großen Firma wie OpenAI (ChatGPT), Anthropic (Claude) oder – seit neuestem – DeepSeek (R1) nutzen. Abgespeckte Varianten, die mittels der sogenannten Distillation aus leistungshungrigen Servermodellen entstehen, laufen auch lokal. Auf Macs geht das besonders einfach mit der kostenlosen App LM Studio. Sie ist für Apple-Silicon-Maschinen geeignet.

Im Gegensatz zu professionelleren Ansätzen wie Ollama muss man sich bei LM Studio nicht in die Kommandozeile begeben. Allerdings ist es auf Wunsch möglich, einen lokalen Server zu betreiben, das muss man aber nicht. Die App integriert die LLM-Nutzung in eine eigene Oberfläche, die das Entdecken der Modelle, Installation und Nutzung kombiniert. Verfügbar sind alle bekannten quelloffenen Modelle, darunter Llama, DeepSeek, Qwen und Mistral. Man kann sich aussuchen, ob die Modelle für Apples MLX-Format optimiert sind, das den Unified-Memory-Speicher von Apple Silicon besser nutzt.

Videos by heise

Damit die Modelle adäquat laufen, benötigt man einen Rechner mit ausreichend Leistung und RAM – sowie Speicherplatz. Die Modellgrößen, die man herunterladen muss, beginnen ab 4 GByte, können aber auch 40 GByte und mehr groß sein. Der Output ist dabei von recht unterschiedlicher Qualität, wie ein Kurztest zeigte. Kleinere Modelle neigten eher zur Halluzination als größere, wobei der Output unterschiedlich schnell kommt. DeepSeek hat auch in der Open-Source-Variante eine Zensur im Sinne der chinesischen Regierung an Bord, mag also beispielsweise nicht über das Massaker am Platz des himmlischen Friedens von 1989 sprechen, allerdings gibt es umgearbeitete Modelle, die dies umgehen.

Bei einem Versuch mit einem großen DeepSeek-Modell kam bei uns der mit Abstand beste Output heraus. Dabei handelte es sich um eine Distill-Variante auf Basis von R1 mit Llama 70B samt Quantisierung. Es zeigt auch den Reasoning-Prozess an (man muss dabei auf "Thinking" klicken), also wie das Modell auf seine "Gedanken" kommt. Die Wartezeit lag bei 20 bis 40 Sekunden, wobei der Lüfter unserer M3-Maschine öfter ansprang. Das ist bei kleineren Modellen – dieses hatte allein 40 GByte – nicht unbedingt der Fall.

Beim Experimentieren mit den Modellen sollte man auf ausreichend SSD-Platz achten. Bei den Modellgrößen kann diese schnell überlaufen. Die Modelle landen im Verzeichnis "models" unter ".lmstudio" im Home-Verzeichnis des Users, lassen sich aber problemlos über die GUI von LM Studio managen und löschen. Die App ist auch für ausreichend schnelle x86-Windows-Rechner, ARM-Windows-Maschinen sowie Linux erhältlich.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externer Preisvergleich (heise Preisvergleich) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (heise Preisvergleich) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

(bsc)