PCIe-Beschleuniger für Server: AMD Instinct MI210 mit 64 GByte verfügbar

AMDs Beschleunigerkarte Instinct MI210 soll in rechenintensiven Aufgaben Nvidias A100 deutlich schlagen und ist laut AMD ab sofort verfügbar.

In Pocket speichern vorlesen Druckansicht 4 Kommentare lesen

(Bild: AMD)

Lesezeit: 3 Min.

AMD kündigt die Verfügbarkeit seiner Rechenbeschleuniger Instinct MI210 an. Die als Steckkarte für den PCI-Express-4.0-Anschluss ausgeführten Beschleuniger nutzen denselben "Aldebaraan"-Chip mit CDNA2-Architektur, der auch schon auf den Instinct MI250 und MI250X für Supercomputer und Rechenzentren zum Einsatz kommen – dort allerdings im Doppelpack. Die Karten haben 64 GByte Speicher, nehmen bis zu 300 Watt via EPS-12V-Stecker auf und sollen durch den (starken) Gehäuseluftstrom des Servers gekühlt werden.

Grafikausgänge haben die Karten nicht, wohl aber Anschlüsse für drei Infinity Fabric Links zur Cache-kohärenten Kopplung von bis zu vier Karten. Zwischen jeweils zwei GPUs übertragen diese bis zu 300 GByte/s.

64 GByte lokaler Speicher sind als HBM2E-Stapelchips auf das Package gelötet und erreichen dank 4096 paralleler Datenleitungen eine Transferrate von 1,6 TByte/s. Speicher und Caches verfügen – wie im Rechenzentrum üblich – über ECC-Speicherschutz.

Auch mit nur einer GPU will AMD Nvidias älteren A100-Chip aus der Ampere-Generation in die Schranken weisen und setzt dafür voll auf die Rechenstärke der CDNA2-Architektur mit ihren FP32- und FP64-tauglichen Matrix Core Engines. Laut interner Benchmarks des Herstellers sind 30 bis 110 Prozent Leistungsvorsprung gegenüber Nvidias A100 in Anwendungen aus dem High-Performance-Computing möglich, darunter HP-Linpack, LAMMPS oder nBody-Solver.

Die Instinct MI210 wird von AMDs Softwareplattform ROCm 5 unterstützt und bekommt Treiber für 64-bittige Linux-Distributionen. Hersteller wie Asus, Dell, Gigabyte, HPE, Lenovo und Supermicro haben Server-Einschübe vom Blade bis 4U-Format im Angebot, in denen sich MI210-Karten integrieren lassen.

AMD hat die zugrundeliegende CDNA2-Architektur rein auf Compute-Workloads optimiert, schleppt also keinen Ballast eines auch für grafische Anwendungen taugenden Chips mit, nennt die Chips dennoch "Graphics Compute Die" (GCD).

Die Instinct MI210 soll laut AMD trotz nur eines CDNA2-Chips immer noch schneller als Nvidias A100 sein.

(Bild: AMD)

Für die "Aldebaran"-Chips kommt moderne Fertigungstechnik zum Einsatz. Die Prozessoren werden in minimal 6 Nanometer feinen Strukturen bei TSMC hergestellt. Das erhöht den maximal möglichen Takt auf bis zu 1,7 GHz und erlaubt AMD, 128 Compute-Units à 64 Stream-Prozessoren in einen GCD einzubauen. In der MI210 sind davon 104 aktiv, eine MI250 oder MI250X besteht aus zwei Chips, mit insgesamt 208 respektive 220 aktiven Compute Units.

Dazu kommen die Matrix Cores, die ebenso wie die Vektoreinheiten FP32 und FP64 mit gleicher Geschwindigkeit bearbeiten können, aber bei Matrix-Matrix-Multiplikationen und PackedFP32-Math noch einmal doppelt so schnell sind. Mit bis zu 45,3 FP64/Packed FP32-TFlops stellen sie andere Beschleuniger wie Nvidias A100 weit in den Schatten, deren Tensor Cores mit speziellen Datenformaten wie TF32 allerdings aufholen und im Integer-Bereich für KI-Inferencing sogar davonziehen.

Instinct MI210 (PCIe) Instinct MI250X (OAM) Instinct MI250
(OAM)
Instinct MI100 (PCIe) A100 (SXM)
Hersteller AMD AMD AMD AMD Nvidia
GPU CDNA2 Aldebaran 2x CDNA2 Aldebaran 2x CDNA2 Aldebaran CDNA Arcturus A100 (Ampere)
CUs/SMs 104 220 208 120 108
FP32 Cores / CU 64 64 64 64 64
FP32 Cores / GPU 6656 14080 13312 7680 6912
FP64 Cores / CU 64 64 64 32 32
FP64 Cores / GPU 6656 14080 13312 3840 3456
Matrix Multiply Engines / GPU
(Matrix Core Engine / Tensor Cores)
416 880 832 480 432
GPU Boost Clock 1700 MHz 1700 MHz 1700 MHz 1502 k.A.
Peak FP32 / FP64 TFlops 22,6 / 22,6 47,9 / 47,9 45,3 / 45,3 23,07 / 11,54 19,5 / 9,7
Peak TFlops Tensor Cores / Matrix Core Engine 45,3 (FP32 & FP64) 95,7 (FP32 & FP64) 90,5 (FP32 & FP64) 46,1 (FP32) 156 (TF32) / 312 (TF32 Structural Sparsity)
Peak FP16 / BF16 TFlops 181 / 181 308 / 308 362 / 362 184,6 / 92,3 312 / 312 (624 / 624 Structural Sparsity)
Peak INT8 / INT4 TOps k.A. 308 / 308 362 / 362 184,6 / 184,6 624 / 1248 (1248 / 2496 Structural Sparsity)
Speicher-Interface 4096 Bit HBM2E 2 × 4096 Bit HBM2E 2 × 4096 Bit HBM2E 4096 Bit HBM2 5120 Bit HBM2
Speichergröße 64 GByte 128 GByte 128 GByte 32 GByte 40 - 80 GByte
Speichertransferrate 1,6 TByte/s 3,2 TByte/s 3,2 TByte/s 1,2 TByte/s 1,55 - 2,0 TByte/s
TDP 300 Watt 560 Watt (Flüssigkühlung) / 500 Watt (Airflow) 560 Watt (Flüssigkühlung) / 500 Watt (Airflow) 300 Watt 400 Watt (SXM)
Transistoren (Mrd.) 58 Mrd. 58 Mrd. (pro GPU) 58 Mrd. (pro GPU) k.A. 54 Mrd.
Fertigung 6 nm 6 nm 6 nm 7 nm 7 nm

(csp)