Fugaku: Weltweit schnellster CPU-only-Supercomputer mit 7,7 Millionen Kernen
Anstelle von DDR4-RAM kommen 5 Petabyte High-Bandwidth Memory (HBM2) mit einer gemeinsamen Übertragungsrate von 163 PByte/s zum Einsatz.
Sechs Jahre nach dem Startschuss zur Entwicklung eines neuen japanischen Supercomputers ist Fugaku fertiggestellt. Früher unter dem Namen „Post-K“ designt, nutzt Fugaku 158.976 A64FX-Prozessoren mit jeweils 48 ARM-CPU-Kernen, die Fujitsu für das Projekt entwickelt hat. Die knapp 7,7 Millionen Rechenkerne enthalten jeweils zwei Scalable Vector Extensions (SVE), die ähnlich Intels AVX-512-Instruktionen 512-Bit-Werte verarbeiten können.
Bei einer CPU-Taktfrequenz von 2,2 GHz kommt Fugaku dank der SVEs auf eine Spitzenrechenleistung von 537 PetaFlops bei doppelter Genauigkeit (FP64) – das entspricht 537 Billiarden Gleitkommaoperationen pro Sekunde. Die A64FX-Prozessoren können aber auch die Datenformate FP32 (1,07 ExaFlops), FP16 (2,15 ExaFlops) und INT8 (4,3 ExaFlops) beschleunigen.
Zum Vergleich: Der bisher weltweit schnellste Supercomputer Summit kommt laut Top500-Liste vom November 2019 auf 200 FP64-PetaFlops, benötigt dafür aber knapp 28.000 Tesla-V100-Beschleunigerkarten von Nvidia. Das ursprüngliche FP64-ExaFlops-Ziel (1000 PetaFlops) verfehlt Fugaku allerdings zumindest in der ersten Ausbaustufe.
Hohe Effizienz
Die Installation von Fugaku am Forschungsinstitut Riken hat Fujitsu diesen Mai abgeschlossen. Die Zahlen zur Leistung verriet Riken-Direktor Satoshi Matsuoka auf Twitter. Aktuell erfolgt die Software-Installation, bis 2021 soll der Supercomputer voll einsatzbereit sein. Zu dem Zeitpunkt sollte die Rechenfarm immer noch zu den zehn schnellsten der Welt zählen – die USA wollen 2021 erste Exascale-Systeme in Betrieb nehmen. Derzeit laufen Simulationen des Coronavirus SARS-CoV-2 auf ersten Rechenclustern.
Abseits der hohen Rechenleistung soll Fugaku besonders effizient laufen: Mit 16,78 GigaFlops pro Watt in einem ersten Testlauf würde der Supercomputer die Green500-Liste anführen, wo Tesla-V100-Systeme bestenfalls auf knapp 16 GFlops/W kommen. Mitverantwortlich für die geringe Leistungsaufnahme ist TSMCs 7-Nanometer-Prozess, in dem Fujitsu die A64FX-Prozessoren produzieren lässt. Kommende Rechenfarmen mit Tesla-A100-Beschleunigern dürften noch eine Schippe drauflegen.
x
5 PByte HBM2-RAM
Außer den Scalable Vector Extensions kommt Fugaku ohne spezialisierte Hardware daher, um ein möglichst breites Feld an Anwendungen zu unterstützen. Vergleichsweise ungewöhnlich ist das Speichersystem: Der Supercomputer verzichtet auf DDR4-RAM, stattdessen sitzen in jedem A64FX-Prozessor vier HBM2-Speicherstapel mit jeweils 8 GByte Kapazität. Das ergibt insgesamt 5 Petabyte High-Bandwidth Memory mit einer addierten Übertragungsrate von enormen 163 PByte/s, geht allerdings zulasten der Speicherlatenz.
(mma)