Drei Unified-Memory-Workstations für lokale KI im Test
Bezahlbare Workstations für lokale KI: Die Unified-Memory-Workstations HP Z2 Mini G1a, Asus Ascent GX10 und Apple Mac Studio M4 Max im Check.
(Bild: Vanessa Bahr / KI / iX)
- René Peinl
- Thomas Weber
Zur digitalen Souveränität gehört auch der Betrieb lokaler KI-Modelle auf eigener Hardware. Viele meinen, sie hätten nur die Wahl zwischen den kleinen Ablegern der großen Sprachmodelle (Large Language Models, LLMs) oder einer Investition von über 100.000 Euro in Rechenzentrumshardware wie H200. Dabei stoßen Modelle wie Ministral 3 mit 14 Milliarden Parametern, die noch in gängige Consumer-Grafikkarten mit 16 oder 24 GByte VRAM passen, schnell an die Grenzen ihrer Leistungsfähigkeit.
Deutlich leistungsfähiger werden die Modelle erst ab einer Größe von 100 Milliarden Parametern, die aber selbst mit Quantisierung, also dem Verwenden von Parametern mit geringerer Genauigkeit wie INT4 statt FP16, eine GPU mit mindestens 80 GByte VRAM erfordern.
- Unified-Memory-Workstations bieten bezahlbare KI-Rechenleistung im kompakten Formfaktor.
- Die Geräte eignen sich für LLMs der Größenklasse um 100 Milliarden Parameter, besonders bei der Mixture-of-Experts-Architektur.
- Wir vergleichen die Leistung von DGX Spark, Ryzen AI Max+ 395 und Apple M4 Max für dichte und dünn besetzte Modelle bei Prefill und Decode.
Für KI-Entwickler und die Inferenz in KMU ist daher eine neue Gerätekategorie interessant, die viel VRAM mit bezahlbaren Preisen vereint: Unified-Memory-Workstations. Der Artikel vergleicht drei dieser Geräte.
Das war die Leseprobe unseres heise-Plus-Artikels "Drei Unified-Memory-Workstations für lokale KI im Test". Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.