Frontier: Der nächste verspätete Supercomputer, dieses Mal mit AMD-Hardware
Der 1,5 Exaflops starke Supercomputer Frontier geht erst 2023 vollständig ans Netz. Bis dahin gibt es den Mini-Ableger Crusher.
Das Energieministerium der Vereinigten Staaten (Department of Energy, DoE) verschiebt seinen zweiten Supercomputer der Exascale-Klasse: Frontier sollte eigentlich schon 2021 ans Netz gehen, kommt nach derzeitiger Prognose aber erst im Januar 2023. Zur Überbrückung gibt es einen Mini-Frontier, auf dem das Forschungsteam schon mal Code anpassen und ausprobieren kann.
Zuvor verspätete sich bereits der Supercomputer Aurora – bei ihm waren maßgeblich Intels verzögerte Xeon-Prozessoren aus der CPU-Familie Sapphire Rapids und die GPU-Beschleuniger Ponte Vecchio schuld. In Frontier kommen hingegen angepasste Epyc-Prozessoren und Instinct-Beschleuniger von AMD zum Einsatz. Gründe für die Verspätung nennt das Oak Ridge National Laboratory (ORNL), in dem der Supercomputer aufgestellt wird, in seiner Mitteilung nicht.
Supercomputerchen Crusher
Das Übergangssystem heißt Crusher und besteht aus 192 Nodes mit jeweils einem 64-kernigem Epyc 7A53, 512 GByte DDR4-RAM und vier Instinct MI250X. Die Epyc-Prozessoren stammen noch aus der Zen-3-Generation, sind aber für das ORNL angepasst – andere Firmen können dieses Modell nicht kaufen. Die Instinct-MI250X-Module nehmen die Betreiber von der Stange. Jedes Modul behaust zwei sogenannte Aldebaran-GPUs mit insgesamt 14.080 FP64-Kernen und einer FP64-Spitzenrechenleistung von 47,9 TFlops.
Eine CPU und vier Beschleuniger kommunizieren untereinander über AMDs Infinity-Fabric-Interconnect. Die Nodes wiederum verbindet HPE mit dem eigenen Slingshot-Interconnect. Rein rechnerisch dürfte Crushers Gesamtrechenleistung bei weniger als 40 Petaflops landen – rund 2 Prozent von Frontiers Rechenleistung. Der ausgewachsene Frontier-Supercomputer nutzt die gleichen Prozessoren und GPU-Beschleuniger, ist mit mehr als 9000 Nodes aber deutlich größer dimensioniert.
Zu den ersten wissenschaftlichen Projekten, deren Code für die AMD-Hardware angepasst werden, gehören:
- CANcer Distributed Learning Environment (CANDLE)
- Computational hydrodynamics on ∥ (parallel) Architectures (Cholla)
- Locally Self-Consistent Multiple Scattering (LSMS)
- Nuclear Coupled-Cluster Oak Ridge (NuCCOR)
(mma)