AMDs Exascale-Hammer: Epyc 3 mit 804 MByte Cache, Instinct MI200 mit 47,9 TFlops

AMDs Epyc-CPUs mit 512 MByte 3D V-Cache sowie Instinct-MI200-Rechenbeschleuniger mit fast 48 TFlops sollen Frontier zum ersten US-Exascale-Supercomputer machen.

In Pocket speichern vorlesen Druckansicht 45 Kommentare lesen

(Bild: AMD)

Lesezeit: 6 Min.
Von
  • Carsten Spille

AMD lüftet die Geheimnisse um die Hardware hinter dem ersten Exascale-Computer der USA. Der Superrechner namens Frontier wird verbesserte Server-Prozessoren der Epyc-7003-Generation verwenden. Diese Milan-X getauften Spezial-CPUs stattet AMD mit dem 3D V-Cache aus, der die Kapazität des Level-3-Caches von 256 auf 768 MByte verdreifacht [-] zusammen mit Level-2- und -1-Caches kommt der Prozessor so auf gigantische 804 MByte des schnellen Zwischenspeichers.

Den Hauptteil der Rechenleistung steuern indes die ebenfalls neuen Rechenbeschleuniger der Instinct MI200-Reihe bei, genauer die MI250X. Sie bestehen jeweils aus zwei Compute-Chips, takten mit bis zu 1,7 GHz, haben 128 GByte HBM2E-Stapelspeicher und erreichen eine Rechenleistung von rund 47,9 Billionen Rechenschritte pro Sekunde (TFlops) bei der für Supercomputer relevanten Gleitkommagenauigkeit von 64 Bit (FP64).

Rechnerisch sollte der Frontier-Supercomputer für seine projektierten 1,5 Exa-Flops also mit knapp 32.000 MI250X-Beschleunigern in 4000 Nodes auskommen, je nachdem wie gerundet wird und ob die Betreiber die AMD Epyc-Prozessoren mitrechnen lassen.

Für die neuen Epyc-Serverprozessoren der Zen-3-Generation hat AMD vorab noch keine Produktnamen veröffentlicht, wohl aber den Codenamen: Milan-X. Sie werden die 3D V-Cache genannte Technik nutzen, bei der kleine Cache-Chips über direkte Kupfer-Kupfer-Verbindung auf die Compute-Cache-Dies (CCDs) der Epyc-7003-Prozessoren gepresst werden. 3D V-Cache hatte AMDs Chefin Dr. Lisa Su bereits im Juni auf der virtuellen Computex demonstriert: Damals noch auf einem Ryzen 9 5900X, dessen zwei CCDs inklusive des V-Cache auf 192 MByte L3-Cache kamen.

Mit 3D-Chiplet-Technik zu ungeahnten Cache-Größen: 3D V-Cache auf dem Epyc

(Bild: AMD)

Bei den Epyc-Prozessoren mit ihren maximal 64 Kernen in 8 CCDs kann jedes einzelne Compute-Chiplet mit einem 64 MByte fassenden 3D V-Cache aufgemotzt werden. Inklusive der schon in den CCDs integrierten 256 MByte kommen die Prozessoren so insgesamt auf 768 MByte L3-Cache – AMD addiert marketingwirksam noch L2- und L1-Caches hinzu, was aber technischer Unsinn ist, da diese exklusiv für ihren jeweiligen Kern vorhanden sind, die anderen Kerne also nicht direkt darauf zugreifen können.

Auch wenn sich durch den Cache der reine Rechendurchsatz der AVX2-Vektoreinheiten nicht erhöht, steigt die Leistung in der Praxis durch die effektiv gesenkte Speicherlatenz in vielen Fällen spürbar. AMD nennt einen Leistungszuwachs von 66 Prozent und als konkretes Beispiel Synopsis VCS, ein verbreitetes Tool aus der Eletronic Design Automation – hiermit werden etwa Chipdesigns auf Fehler geprüft. Im Vergleich mit einem 16-kernigen Epyc 73F3 mit 256 MByte L3-Cache soll ein vergleichbar konfigurierter Epyc mit 768 MByte 3D V-Cache 40,6 anstelle von 24,4 Durchläufen pro Stunde geschafft haben.

Die Epyc-Prozessoren sollen abseits des Exascale-Supercomputers Frontier im ersten Quartal 2022 auf den Markt kommen und nach einem BIOS-Update in bereits vorhandenen Milan-Serverplattformen mit SP3-Fassung lauffähig sein.

Die Hauptlast der Rechenarbeit des Frontier-Supercomputers liegt allerdings bei den Rechenbeschleunigern MI250 und MI250X. Diese stammen ebenfalls von AMD und beim Lesen des Datenblattes kommt man schon ins Staunen: Sie liefern die enorme FP64-Leistung von 49,7 TFlops – zum Vergleich schafft Nvidias aktueller A100-Chip gerade einmal 9,7 TFlops.

AMDs Instinct MI200 auf einem OCP Accelerator Module

(Bild: AMD)

Auch AMD schafft dieses Kunststück nur mit ein paar cleveren Tricks. So hat man die zugrundeliegende CDNA-Architektur rein auf Compute-Workloads optimiert, schleppt also keinen Ballast eines auch für grafische Anwendungen taugenden Chips mit. AMD nennt die Chips dennoch "Graphics Compute Die" (GCD). Dann bedient sich AMD für die "Aldebaran"-Chips modernster Fertigungstechnik. Die Prozessoren werden in minimal 6 Nanometer feinen Strukturen bei TSMC hergestellt. Das erhöht den maximal möglichen Takt auf bis zu 1,7 GHz und erlaubt AMD, 128 Compute-Units à 64 Stream-Prozessoren in einen GCD einzubauen. Zu guter Letzt besteht eine MI250 oder MI250X aus zwei Chips, mit insgesamt 220 aktiven Compute Units.

Dazu kommen die Matrix Cores, die ebenso wie die Vektoreinheiten FP32 und FP64 mit gleicher Geschwindigkeit bearbeiten können, aber bei Matrix-Matrix-Multiplikationen und PackedFP32-Math noch einmal doppelt so schnell sind. Mit bis zu 95,7 FP64/Packed FP32-TFlops stellen sie andere Beschleuniger weit in den Schatten.

AMDs Instinct MI200 auf einem OCP Accelerator Module - mit bis zu 560 Watt

(Bild: AMD)

Auch beim Speicherausbau klotzt AMD: 128 GByte HBM2E-Stapelspeicher, aufgeteilt in acht Module mit je 16 GByte sind vorhanden. Jedes Modul wird über 1024 parallele Datenleitungen an einen der beiden Compute-Chips geknüpft und mit einer Datenrate von 3,2 Gbit/s betrieben. Zusammen kommt die MI250(X) so auf eine Übertragungsrate von 3,2 TByte/s gegenüber 1,2 TByte/s beim Vorgänger MI200 und 2 TByte/s bei Nvidia Spitzenmodell A100 80GB SXM.

Acht Infinity Links mit einer bidirektionalen Übertragungsrate von 800 GByte/s verbinden bis zu acht MI250(X) oder 16 GCDs. Die MI250 ohne X arbeitet nur mit sechs statt acht dieser Links und AMD erlaubt ihr keine Speicherkohärenz, da sie per PCIe an das Hostsystem angebunden ist.

Das Ganze hat aber auch seinen Preis: Die Leistungsaufnahme eines OCP Accelerator Module (OAM) des Spitzenmodell MI250X gibt AMD mit 560 Watt an – Nvidias A100 muss in seiner Standardversion mit 400 Watt auskommen.

Instinct MI250X (OAM) Instinct MI250
(OAM)
Instinct MI210 (PCIe) Instinct MI100 (PCIe) A100 (SXM)
Hersteller AMD AMD AMD AMD Nvidia
GPU 2x CDNA2 Aldebaran 2x CDNA2 Aldebaran CDNA2 Aldebaran CDNA Arcturus A100 (Ampere)
CUs/SMs 220 208 k.A. 120 108
FP32 Cores / CU 64 64 k.A. 64 64
FP32 Cores / GPU 14080 13312 k.A. 7680 6912
FP64 Cores / CU 64 64 k.A. 32 32
FP64 Cores / GPU 14080 13312 k.A. 3840 3456
Matrix Multiply Engines / GPU
(Matrix Core Engine / Tensor Cores)
880 832 k.A. 480 432
GPU Boost Clock 1700 MHz 1700 MHz k.A. 1502 k.A.
Peak FP32 / FP64 TFlops 47,9 / 47,9 45,3 / 45,3 k.A. 23,07 / 11,54 19,5 / 9,7
Peak Tensor Core TFlops -- -- k.A. -- 156 (TF32) / 312 (TF32 Structural Sparsity)
Peak Matrix Core Engine TFlops 95,7 (FP32 & FP64) 90,5 (FP32 & FP64) k.A. 46,1 (FP32) --
Peak FP16 / BF16 TFlops 308 / 308 362,1 / 362,1 k.A. 184,6 / 92,3 312 / 312 (624 / 624 Structural Sparsity)
Peak INT8 / INT4 TOps 308 / 308 362,1 / 362,1 k.A. 184,6 / 184,6 624 / 1248 (1248 / 2496 Structural Sparsity)
Speicher-Interface 2 × 4096 Bit HBM2E 2 × 4096 Bit HBM2E k.A. 4096 Bit HBM2 5120 Bit HBM2
Speichergröße 128 GByte 128 GByte k.A. 32 GByte 40 - 80 GByte
Speichertransferrate 3,2 TByte/s 3,2 TByte/s k.A. 1,2 TByte/s 1,55 - 2,0 TByte/s
TDP 560 Watt (Flüssigkühlung) / 500 Watt (Airflow) 560 Watt (Flüssigkühlung) / 500 Watt (Airflow) k.A. 300 Watt 400 Watt (SXM)
Transistoren (Mrd.) 58 Mrd. 58 Mrd. k.A. k.A. 54 Mrd.
Fertigung 6 nm 6 nm 6 nm 7 nm 7 nm

(csp)