AMD Instinct MI350P: Ultraschneller KI-Beschleuniger als PCI-Express-Karte

Instinct MI350P heißt die PCIe-Steckkarte, die AMDs aktuellen KI-Beschleuniger mit großem HBM3e-Speicher theoretisch auch normalen Rechnern zugänglich macht.

3

(Bild: AMD)

15:00 Uhr

Lesezeit: 4 Min.

c't Magazin

Von

Carsten Spille

AMDs Instinct MI350P für reguläre PCIe-5.0-Steckfassungen soll sich primär für Agentic AI eignen, also KI-Agenten, die ihren Nutzern automatisiert zur Hand gehen und Aufgaben abnehmen können. Die Karte hat mit ihrer GPU außer enorm hoher KI-Rechenleistung und viel Speicherdurchsatz aber noch ein paar andere Funktionen in petto. Darunter auch die Beschleunigung aktueller Videocodecs bis AV1 und die Unterteilung in bis zu vier virtuelle GPUs.

Und obwohl sie auch in normalen Rechnern laufen könnte, zielt AMD mit ihr auf Serversysteme, denen die MI350P zur KI-Eignung verhelfen soll. Schon die passive Kühlung der rund 26,7 cm langen Dual-Slot-Karte ist auf den starken Luftstrom von Rackservern ausgelegt. Laut AMD soll sie sich mit ihren 144 GByte Stapelspeicher vom Typ HBM3e für KI-Modelle mit rund 200 bis 250 Milliarden Parametern eignen. Workstation-Karten wie die Radeon AI Pro 9700 mit nur 32 GByte machen deutlich früher schlapp, etwa bei 40 bis 50 Milliarden Parametern.

Halbierte Schwester

Die MI350P teilt sich ihre GPU mit Beschleunigern in der Bauform Open Accelerator Module (OAM) vom Typ Instinct MI350X/355X, allerdings sind bei der MI350P nur 128 Compute Units aktiv, während bei den OAM-Modellen 256 CUs rechnen. Außerdem halbiert AMD den schnellen HBM3e-Stapelspeicher von 288 auf 144 GByte. AMD gibt dies zwar nicht schriftlich zu Protokoll, aber die Abbildung der Karte zeigt, was nahe liegt: Bei der MI350P kommt nur ein I/O-Die (IOD) mit vier Compute-Dies (XCDs) zum Einsatz, das GPU-Package wird gegenüber den größeren Geschwistern also halbiert.

Die Instinct MI350P soll die OAM-Serverboards nach unten ergänzen und zum Beispiel bestehenden Rackserver auf die KI-Sprünge helfen.

(Bild: AMD)

Auch die Leistungsaufnahme sinkt deutlich und gleich mit nominell 600 Watt TDP der einer Nvidia RTX Pro 6000 Blackwell oder H200 NVL, mit denen sie offensichtlich auch konkurrieren soll. Zur Versorgung mit Energie setzt AMD auf den kontroversen ATX-Stecker 12V-2×6. Alternativ lässt sich die Karte in einen Modus mit 450 Watt versetzen.

Um mehrere Nutzer zugleich zu versorgen, gibt es drei Partitionierungsoptionen: SPX, DPX und CPX. Ersterer entspricht dem Vollbetrieb, bei DPX teilen sich zwei Nutzer die Ressourcen (CUs, RAM, Video- und JPEG-Engine, L2-Cache und DMA-Engines) hälftig und bei CPX sind es vier Nutzer. Im CPX-Modus konkurrieren zwei Partitionen um jeweils eine Video- und einen Zehnerblock JPEG-Engines. Die sollten aber noch über genug Reserven verfügen, denn der komplette Chip etwa schafft 99 AV1-Streams (1080p30, 4:2:0) und 4425 JPEG-Bilder pro Sekunde in 1080p.

Videos by heise

Hohe Rechenleistung

Konkrete Leistungseinschätzungen teilte AMD im Vorfeld nicht, aber die theoretische Rechenleistung – multipliziert aus Anzahl der Ausführungseinheiten und der Taktfrequenz – liegt mit FP8-Genauigkeit bei 2300 Teraflops (dicht besetzte Matrizen, mit Sparsity verdoppelt sich der jeweilige Wert grob). MXFP4 verdoppelt diese Rate auf 4600 Tflops, MXFP6, anders als etwa bei Nvidia, ebenso. Damit liegt die theoretische Rechenleistung bei etwas weniger als der Hälfte einer MI355X. Nvidias H200 NVL schafft auf dem Papier bei voll besetzten Matrizen rund 1670 Tflops (mit Sparsity dann 3340 Tflops).

AMD liefert auch eine Einschätzung zum tatsächlich erreichten Durchsatz, in den auch Speichertransfers und Begrenzungen durch die Leistungsaufnahme einfließen. Demnach liegt die Instinct MI350P zwischen 60 und 70 Prozent ihrer maximalen Durchsatzraten. Der Ausreißer nach unten ist MXFP6 mit 40 Prozent des theoretischen Durchsatzes, sodass der Wert nur um ein gutes Drittel steigt, statt sich im Vergleich zur (MX)FP8 zu verdoppeln.

Die theoretische und praktisch erzielbare Rechenleistung der Instinct MI350P weicht zum Teil deutlich voneinander ab. Gründe sind unter anderem die verfügbare elektrische Leistung sowie die nötigen Speicher- und Bustransfers.

(Bild: AMD)

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externer Preisvergleich (heise Preisvergleich) geladen.

Preisvergleiche immer laden

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (heise Preisvergleich) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.