KI: Apple nennt mehr Details zu MLX – auch zum Neural Accelerator beim M5

Apples Notebooks, Desktops und Workstations eignen sich gut für die Ausführung lokaler KI-Systeme. Der Schlüssel dafür ist die Software MLX.

5

MLX-Website: KI-Modelle hardwarenah unter Apple Silicon.

(Bild: Apple)

24.11.2025, 15:37 Uhr

Lesezeit: 2 Min.

Mac & i

Von

Ben Schwan

Apple hat auf seiner Machine-Learning-Website weitere Informationen zu seinem KI-Framework MLX und der Nutzung des integrierten KI-Beschleunigers (Neural Accelerator) im M5-Prozessor online gestellt. Das ist insbesondere interessant für Nutzer, die lokale KI-Systeme wie große Sprachmodelle (Large Language Models, LLMs) ausführen wollen, was zunehmend zu einem Trend wird. Zuletzt wurde demonstriert, wie sich das chinesische Großmodell Kimi K2 Thinking auf einem Mac-Studio-Cluster mit vier via Thunderbolt 5 vernetzten 512-GByte-RAM-Workstations ausführen ließ. Kleinere Konfigurationen wie ein MacBook Pro M3 Max mit 128 GByte RAM können aber auch problemlos mittelgroße Modelle wie gpt-oss-120b von OpenAI ausführen. Dabei geben MLX-Varianten der Modelle dem LLM zusätzlichen Boost.

TB5-Vernetzung und neuer Neural-Beschleuniger

"Mit MLX können Benutzer LLMs auf dem Mac effizient erkunden und ausführen. Es ermöglicht Forschern, mit neuen Inferenz- oder Feinabstimmungstechniken zu experimentieren oder KI-Techniken in einer privaten Umgebung auf ihrer eigenen Hardware zu testen. MLX funktioniert mit allen Apple-Silicon-Systemen", so Apple.

Mit macOS 26.2 Beta, das derzeit getestet wird, kommt nun Unterstützung für eine latenzfreie Thunderbolt-5-Vernetzung sowie die besagten Neural Accelerators hinzu, die im 14-Zoll-MacBook Pro M5 integriert sind. Letztere sollen dabei helfen, bestimmte Machine-Learning-Workloads zu beschleunigen und auch die Ausführung der KI-Algorithmen (Inferenz) schneller zu machen.

Videos by heise

Warten auf M5 Pro, M5 Max und M5 Ultra

Da es aktuell noch keine Maschinen mit M5 Pro, M5 Max oder gar M5 Ultra gibt und der M5 nur maximal 32 GByte RAM anspricht, dürften M4 Max oder M3 Ultra derzeit die bessere Wahl sein. Modelle, die in das RAM passen, sollen laut Apple jedoch eine deutlich schnellere "Time to First Token", also die benötigte Zeit zur Ausgabe des ersten Tokens, aufweisen. Sie liegen zwischen dem 3,3-Fachen (gpt-oss-20b-MXFP4-Q4) und dem 4-Fachen (Qwen3-8B-MLX-4bit).

Apple gibt in seinem Dokument auch Tipps dazu, wie man mit MLX arbeitet. Wer sich für weitere Details interessiert, findet auf Github das MLX-LM-Projekt für den Aufruf diverser Modelle und Finetuning. Tipps und Tricks erhalten Interessierte in einer eigenen MLX Community auf Hugging Face. In Tools wie LM Studio findet man auch schnell MLX-Varianten bekannter Modelle.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externer Preisvergleich (heise Preisvergleich) geladen.

Preisvergleiche immer laden

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (heise Preisvergleich) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.