Lokale KI: Nemotron 70B auf vier Mac minis M4 Pro mit Thunderbolt-5-Interconnect

Exolabs, das sich auf lokale KI spezialisiert hat, zeigt, wie man aus vier Kompakt-Macs ein großes LLM bauen kann. Es läuft Nemotron 70B – und bald Llama 405B.

In Pocket speichern vorlesen Druckansicht 23 Kommentare lesen
Vier Mac minis fĂĽr ein LLM

Vier Mac minis fĂĽr ein LLM: Lokal und frei konfigurierbar.

(Bild: Screenshot Alex Cheema / X)

Lesezeit: 2 Min.

Apples neue Mac-mini-Rechner mit M4-SoC haben einige Vorteile auch für professionelle Nutzer: Sie sind vergleichsweise günstig, sehr kompakt und gleichzeitig leistungsfähig. Das könnte auch KI-Anwendungen helfen, beispielsweise lokalen großen Sprachmodellen (Large Language Models, LLMs). Ein Unternehmen, das sich auf solche Anwendungen spezialisiert hat, demonstrierte nun ein High-End-Setup mit insgesamt vier Mac-mini-Maschinen mit M4 Pro, die mittels Thunderbolt-5-Interconnect kooperieren. Ein entsprechendes Video samt erster Werte wurde nun auf X publiziert.

Das Experiment wurde vom Start-up Exo Labs durchgeführt. Laut Angaben des Gründers Alex Cheema erreicht das kleine Cluster bei Verwendung des quelloffenen Modells Nemotron 70B immerhin einen Output von acht Token pro Sekunde. Eine Skalierung auf Llama 405B sei möglich. Genaue Benchmark-Werte sollen laut Cheema "demnächst" geliefert werden, ein Preview findet sich hier. Die Software von Exo selbst ist auf GitHub zu finden – sie trendete nach Cheemas X-Post auf der Plattform.

Über die Thunderbolt-5-Interconnect-Leitung sind Durchsatzraten von 80 Gbps möglich. Angaben zur Konfiguration der Mac minis machte Cheema zunächst nicht. Die M4-Pro-Modelle sind in Deutschland mit 24 GByte RAM und 512 GByte großer SSD ab 1649 Euro erhältlich. Integriert ist dann ein SoC mit 12 CPU- und 16 GPU-Kernen, für 230 Euro Aufpreis sind 14 CPU- und 20 GPU-Kerne erhältlich. Die maximale RAM-Ausstattung liegt bei 64 GByte, hier liegt der Aufpreis bei satten 690 Euro (jeweils ausgehend von besagten 1649 Euro).

Cheema zufolge könnten mit einem solchen Setup maximal 30 Token pro Sekunde mit Nemotron 70B (4-Bit-Quantized) drin. "Da kommen wir hin", schrieb er. Ein kommendes Mac-Studio-M4-Setup mit mehr RAM und M4 Ultra dürfte das Cluster im jetzigen Zustand vermutlich überholen und auch weniger Strom verbrauchen. Das räumt auch Cheema selbst letztlich ein.

Lokale LLMs haben diverse Vorteile. So sind sie datenschutzfreundlich, weil keine Daten zu großen KI-Anbietern (oder Cloud-Hostern) fließen müssen, zudem kann man das Sprachmodell so konfigurieren, wie man möchte.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externer Preisvergleich (heise Preisvergleich) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (heise Preisvergleich) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

(bsc)