KI: Apple nennt mehr Details zu MLX – auch zum Neural Accelerator beim M5

Apples Notebooks, Desktops und Workstations eignen sich gut fĂĽr die AusfĂĽhrung lokaler KI-Systeme. Der SchlĂĽssel dafĂĽr ist die Software MLX.

vorlesen Druckansicht 5 Kommentare lesen
MLX-Website

MLX-Website: KI-Modelle hardwarenah unter Apple Silicon.

(Bild: Apple)

Lesezeit: 2 Min.
close notice

This article is also available in English. It was translated with technical assistance and editorially reviewed before publication.

Apple hat auf seiner Machine-Learning-Website weitere Informationen zu seinem KI-Framework MLX und der Nutzung des integrierten KI-Beschleunigers (Neural Accelerator) im M5-Prozessor online gestellt. Das ist insbesondere interessant für Nutzer, die lokale KI-Systeme wie große Sprachmodelle (Large Language Models, LLMs) ausführen wollen, was zunehmend zu einem Trend wird. Zuletzt wurde demonstriert, wie sich das chinesische Großmodell Kimi K2 Thinking auf einem Mac-Studio-Cluster mit vier via Thunderbolt 5 vernetzten 512-GByte-RAM-Workstations ausführen ließ. Kleinere Konfigurationen wie ein MacBook Pro M3 Max mit 128 GByte RAM können aber auch problemlos mittelgroße Modelle wie gpt-oss-120b von OpenAI ausführen. Dabei geben MLX-Varianten der Modelle dem LLM zusätzlichen Boost.

"Mit MLX können Benutzer LLMs auf dem Mac effizient erkunden und ausführen. Es ermöglicht Forschern, mit neuen Inferenz- oder Feinabstimmungstechniken zu experimentieren oder KI-Techniken in einer privaten Umgebung auf ihrer eigenen Hardware zu testen. MLX funktioniert mit allen Apple-Silicon-Systemen", so Apple.

Mit macOS 26.2 Beta, das derzeit getestet wird, kommt nun UnterstĂĽtzung fĂĽr eine latenzfreie Thunderbolt-5-Vernetzung sowie die besagten Neural Accelerators hinzu, die im 14-Zoll-MacBook Pro M5 integriert sind. Letztere sollen dabei helfen, bestimmte Machine-Learning-Workloads zu beschleunigen und auch die AusfĂĽhrung der KI-Algorithmen (Inferenz) schneller zu machen.

Videos by heise

Da es aktuell noch keine Maschinen mit M5 Pro, M5 Max oder gar M5 Ultra gibt und der M5 nur maximal 32 GByte RAM anspricht, dürften M4 Max oder M3 Ultra derzeit die bessere Wahl sein. Modelle, die in das RAM passen, sollen laut Apple jedoch eine deutlich schnellere "Time to First Token", also die benötigte Zeit zur Ausgabe des ersten Tokens, aufweisen. Sie liegen zwischen dem 3,3-Fachen (gpt-oss-20b-MXFP4-Q4) und dem 4-Fachen (Qwen3-8B-MLX-4bit).

Apple gibt in seinem Dokument auch Tipps dazu, wie man mit MLX arbeitet. Wer sich fĂĽr weitere Details interessiert, findet auf Github das MLX-LM-Projekt fĂĽr den Aufruf diverser Modelle und Finetuning. Tipps und Tricks erhalten Interessierte in einer eigenen MLX Community auf Hugging Face. In Tools wie LM Studio findet man auch schnell MLX-Varianten bekannter Modelle.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externer Preisvergleich (heise Preisvergleich) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (heise Preisvergleich) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

(bsc)