AMDs Exascale-Hammer: Epyc 3 mit 804 MByte Cache, Instinct MI200 mit 47,9 TFlops
AMDs Epyc-CPUs mit 512 MByte 3D V-Cache sowie Instinct-MI200-Rechenbeschleuniger mit fast 48 TFlops sollen Frontier zum ersten US-Exascale-Supercomputer machen.
- Carsten Spille
AMD lüftet die Geheimnisse um die Hardware hinter dem ersten Exascale-Computer der USA. Der Superrechner namens Frontier wird verbesserte Server-Prozessoren der Epyc-7003-Generation verwenden. Diese Milan-X getauften Spezial-CPUs stattet AMD mit dem 3D V-Cache aus, der die Kapazität des Level-3-Caches von 256 auf 768 MByte verdreifacht [-] zusammen mit Level-2- und -1-Caches kommt der Prozessor so auf gigantische 804 MByte des schnellen Zwischenspeichers.
Den Hauptteil der Rechenleistung steuern indes die ebenfalls neuen Rechenbeschleuniger der Instinct MI200-Reihe bei, genauer die MI250X. Sie bestehen jeweils aus zwei Compute-Chips, takten mit bis zu 1,7 GHz, haben 128 GByte HBM2E-Stapelspeicher und erreichen eine Rechenleistung von rund 47,9 Billionen Rechenschritte pro Sekunde (TFlops) bei der für Supercomputer relevanten Gleitkommagenauigkeit von 64 Bit (FP64).
Rechnerisch sollte der Frontier-Supercomputer für seine projektierten 1,5 Exa-Flops also mit knapp 32.000 MI250X-Beschleunigern in 4000 Nodes auskommen, je nachdem wie gerundet wird und ob die Betreiber die AMD Epyc-Prozessoren mitrechnen lassen.
Milan-X
Für die neuen Epyc-Serverprozessoren der Zen-3-Generation hat AMD vorab noch keine Produktnamen veröffentlicht, wohl aber den Codenamen: Milan-X. Sie werden die 3D V-Cache genannte Technik nutzen, bei der kleine Cache-Chips über direkte Kupfer-Kupfer-Verbindung auf die Compute-Cache-Dies (CCDs) der Epyc-7003-Prozessoren gepresst werden. 3D V-Cache hatte AMDs Chefin Dr. Lisa Su bereits im Juni auf der virtuellen Computex demonstriert: Damals noch auf einem Ryzen 9 5900X, dessen zwei CCDs inklusive des V-Cache auf 192 MByte L3-Cache kamen.
Bei den Epyc-Prozessoren mit ihren maximal 64 Kernen in 8 CCDs kann jedes einzelne Compute-Chiplet mit einem 64 MByte fassenden 3D V-Cache aufgemotzt werden. Inklusive der schon in den CCDs integrierten 256 MByte kommen die Prozessoren so insgesamt auf 768 MByte L3-Cache – AMD addiert marketingwirksam noch L2- und L1-Caches hinzu, was aber technischer Unsinn ist, da diese exklusiv für ihren jeweiligen Kern vorhanden sind, die anderen Kerne also nicht direkt darauf zugreifen können.
Auch wenn sich durch den Cache der reine Rechendurchsatz der AVX2-Vektoreinheiten nicht erhöht, steigt die Leistung in der Praxis durch die effektiv gesenkte Speicherlatenz in vielen Fällen spürbar. AMD nennt einen Leistungszuwachs von 66 Prozent und als konkretes Beispiel Synopsis VCS, ein verbreitetes Tool aus der Eletronic Design Automation – hiermit werden etwa Chipdesigns auf Fehler geprüft. Im Vergleich mit einem 16-kernigen Epyc 73F3 mit 256 MByte L3-Cache soll ein vergleichbar konfigurierter Epyc mit 768 MByte 3D V-Cache 40,6 anstelle von 24,4 Durchläufen pro Stunde geschafft haben.
Die Epyc-Prozessoren sollen abseits des Exascale-Supercomputers Frontier im ersten Quartal 2022 auf den Markt kommen und nach einem BIOS-Update in bereits vorhandenen Milan-Serverplattformen mit SP3-Fassung lauffähig sein.
Instinct MI200: MI250 & MI250X
Die Hauptlast der Rechenarbeit des Frontier-Supercomputers liegt allerdings bei den Rechenbeschleunigern MI250 und MI250X. Diese stammen ebenfalls von AMD und beim Lesen des Datenblattes kommt man schon ins Staunen: Sie liefern die enorme FP64-Leistung von 49,7 TFlops – zum Vergleich schafft Nvidias aktueller A100-Chip gerade einmal 9,7 TFlops.
Auch AMD schafft dieses Kunststück nur mit ein paar cleveren Tricks. So hat man die zugrundeliegende CDNA-Architektur rein auf Compute-Workloads optimiert, schleppt also keinen Ballast eines auch für grafische Anwendungen taugenden Chips mit. AMD nennt die Chips dennoch "Graphics Compute Die" (GCD). Dann bedient sich AMD für die "Aldebaran"-Chips modernster Fertigungstechnik. Die Prozessoren werden in minimal 6 Nanometer feinen Strukturen bei TSMC hergestellt. Das erhöht den maximal möglichen Takt auf bis zu 1,7 GHz und erlaubt AMD, 128 Compute-Units à 64 Stream-Prozessoren in einen GCD einzubauen. Zu guter Letzt besteht eine MI250 oder MI250X aus zwei Chips, mit insgesamt 220 aktiven Compute Units.
Dazu kommen die Matrix Cores, die ebenso wie die Vektoreinheiten FP32 und FP64 mit gleicher Geschwindigkeit bearbeiten können, aber bei Matrix-Matrix-Multiplikationen und PackedFP32-Math noch einmal doppelt so schnell sind. Mit bis zu 95,7 FP64/Packed FP32-TFlops stellen sie andere Beschleuniger weit in den Schatten.
Auch beim Speicherausbau klotzt AMD: 128 GByte HBM2E-Stapelspeicher, aufgeteilt in acht Module mit je 16 GByte sind vorhanden. Jedes Modul wird über 1024 parallele Datenleitungen an einen der beiden Compute-Chips geknüpft und mit einer Datenrate von 3,2 Gbit/s betrieben. Zusammen kommt die MI250(X) so auf eine Übertragungsrate von 3,2 TByte/s gegenüber 1,2 TByte/s beim Vorgänger MI200 und 2 TByte/s bei Nvidia Spitzenmodell A100 80GB SXM.
Acht Infinity Links mit einer bidirektionalen Übertragungsrate von 800 GByte/s verbinden bis zu acht MI250(X) oder 16 GCDs. Die MI250 ohne X arbeitet nur mit sechs statt acht dieser Links und AMD erlaubt ihr keine Speicherkohärenz, da sie per PCIe an das Hostsystem angebunden ist.
Das Ganze hat aber auch seinen Preis: Die Leistungsaufnahme eines OCP Accelerator Module (OAM) des Spitzenmodell MI250X gibt AMD mit 560 Watt an – Nvidias A100 muss in seiner Standardversion mit 400 Watt auskommen.
Instinct MI250X (OAM) |
Instinct MI250 (OAM) |
Instinct MI210 (PCIe) | Instinct MI100 (PCIe) | A100 (SXM) | |
Hersteller | AMD | AMD | AMD | AMD | Nvidia |
GPU | 2x CDNA2 Aldebaran | 2x CDNA2 Aldebaran | CDNA2 Aldebaran | CDNA Arcturus | A100 (Ampere) |
CUs/SMs | 220 | 208 | k.A. | 120 | 108 |
FP32 Cores / CU | 64 | 64 | k.A. | 64 | 64 |
FP32 Cores / GPU | 14080 | 13312 | k.A. | 7680 | 6912 |
FP64 Cores / CU | 64 | 64 | k.A. | 32 | 32 |
FP64 Cores / GPU | 14080 | 13312 | k.A. | 3840 | 3456 |
Matrix Multiply Engines / GPU (Matrix Core Engine / Tensor Cores) |
880 | 832 | k.A. | 480 | 432 |
GPU Boost Clock | 1700 MHz | 1700 MHz | k.A. | 1502 | k.A. |
Peak FP32 / FP64 TFlops | 47,9 / 47,9 | 45,3 / 45,3 | k.A. | 23,07 / 11,54 | 19,5 / 9,7 |
Peak Tensor Core TFlops | -- | -- | k.A. | -- | 156 (TF32) / 312 (TF32 Structural Sparsity) |
Peak Matrix Core Engine TFlops | 95,7 (FP32 & FP64) | 90,5 (FP32 & FP64) | k.A. | 46,1 (FP32) | -- |
Peak FP16 / BF16 TFlops | 308 / 308 | 362,1 / 362,1 | k.A. | 184,6 / 92,3 | 312 / 312 (624 / 624 Structural Sparsity) |
Peak INT8 / INT4 TOps | 308 / 308 | 362,1 / 362,1 | k.A. | 184,6 / 184,6 | 624 / 1248 (1248 / 2496 Structural Sparsity) |
Speicher-Interface | 2 × 4096 Bit HBM2E | 2 × 4096 Bit HBM2E | k.A. | 4096 Bit HBM2 | 5120 Bit HBM2 |
Speichergröße | 128 GByte | 128 GByte | k.A. | 32 GByte | 40 - 80 GByte |
Speichertransferrate | 3,2 TByte/s | 3,2 TByte/s | k.A. | 1,2 TByte/s | 1,55 - 2,0 TByte/s |
TDP | 560 Watt (Flüssigkühlung) / 500 Watt (Airflow) | 560 Watt (Flüssigkühlung) / 500 Watt (Airflow) | k.A. | 300 Watt | 400 Watt (SXM) |
Transistoren (Mrd.) | 58 Mrd. | 58 Mrd. | k.A. | k.A. | 54 Mrd. |
Fertigung | 6 nm | 6 nm | 6 nm | 7 nm | 7 nm |
(csp)