zurück zum Artikel

Die Exascale-Ära ist eingeläutet: Die 59. Top500-Liste der Supercomputer Update

Andreas Stiller

Die ISC 22 beginnt mit einem lang erwarteten Knaller: Der amerikanische Supercomputer Frontier mit AMD-Technik knackt die Exaflops-Marke.

Nun ist er da, der erste Exascale-Rechner, jedenfalls der erste, der für die neue 59. Top500-Liste gemeldet wurde: der US-amerikanische Frontier am Oak Ridge National Lab (ORNL). Mit 1,1 EFlops im doppeltgenauen Linpack-Benchmark (1,68 EFlops Spitzenleistung) steht er souverän an der Spitze, fast dreimal so schnell wie der bisherige Spitzenreiter Fugaku aus Japan mit 442 Petaflops. Auf Platz 3 folgt mit 152 PFlops Europas neuer Schnellster Lumi, der zwar in Finnland sein Zuhause hat, aber ein Gemeinschaftswerk der skandinavischen Länder, Belgien, Schweiz, Polen und Tschechien ist. China ist allerdings derweil aus der Top500-Liste ausgestiegen.

Frontier und Lumi sind beides HPE/Cray-EX-Systeme, ausgestattet mit AMD Epyc (Zen 3 Milan beziehungsweise Trento), AMD Instinct MI250X als Rechenbeschleuniger und HPE Slingshot als Interconnect. Schon am Vortag der ISC-Konferenz für High-Performance-Computing, die diesmal wieder „in persona“ im Hamburger CCH bis Donnerstag läuft, ließ HPE zusammen mit AMD und ORNL im Hotel Grand Elysee die Sektkorken knallen.

Hinzu kommt, dass sich mit Adastra gleich noch ein drittes Cray-EX-System auf Platz 10 mit 46 PFlops neu in die Top10 der Liste eintragen hat, das in Frankreich von den beiden „Grand-National“- Einrichtungen GENCI und CINES betrieben wird und ebenfalls AMD-Technik verwendet. Und auf Platz 29 gibt es zudem am ORNL noch einen kleinen Bruder des Frontier namens Frontier TDS – auch Crusher genannt [1].

Top10 der 59. Top500-Liste vom Mai 2022 (0 Bilder) [2]

[3]

All diese Cray-EX235a-Systeme mit Milan und MI250X können mit beeindruckenden Energieeffizienzen von über 50 GFlops/Watt aufwarten, der kleine Frontier TDS gar mit 62,2 GFlops/Watt vor dem großen Bruder, der mit 52,2 GFlops/Watt das hochgesteckte Ziel für ExaScale von maximal 30 Megawatt einhalten kann. Weiterhin gibt es noch drei weitere Cray-EX235a-Systeme an US-Laboren auf den Plätzen 123, 135 und 200, allerdings ohne Effizienzangabe.

Die Daten von Frontier [4] sind schon beeindruckend: 74 Racks mit Warmwasserkühlung, jedes Rack 8000 amerikanische Pfund schwer, mit insgesamt 9408 CPUs und 37.632 GPUs. Dazu 90 km Slingshot-Verkabelung, 9,2 PByte Hauptspeicher (davon 4,6 PByte High Bandwidth Memory/HBM), 716 PByte Storage. Die Aufbauzeit betrug 7 Monate. Dabei hat das ORNL noch Reserven an Platz, Stromversorgung und Kühlung, kann also noch in Richtung 2 Exaflops aufstocken.

Rund 3 Stunden hat der Rechner am Linpack-Benchmark geackert, die Energieaufnahme stieg dabei sprunghaft um 15 auf 29 MW. So hat der Linpack-Lauf also etwa 87.000 KWh geschluckt, was schon eine Kleinigkeit kostet. Wie HPE aber betont, ist der Linpack-Lauf über die ganze Anlage als hervorragender Stabilitätstest unverzichtbar.

Die Performance für den HPCG-Benchmark ist derzeit allerdings noch nicht berauschend. Für Frontier ist noch gar kein Wert angegeben, für LUMI und Adastra sind diese recht mickrig. Offenbar ist AMD noch nicht dazu gekommen, diesen Benchmark für Instrinct MI250X anzupassen.

Frontier von innen, allein 70 km Kabel fürs Interconnect Slingshot mussten verlegt werden

(Bild: ORNL)

Aus China wurde kein einziges neues System mehr gemeldet, im letzten Jahr auch nur ein paar Industrie-Systeme von Lenovo. Auslöser dürften die seit April 2021 geltenden US-Sanktionen gegen China sein mit den Exportverboten von High-Tech an viele chinesische Firmen. Auch aus Russland gabs nichts Neues, russische Firmen sind aus bekannten Gründen ja seit März dieses Jahres auf der Sanktionsliste. Zu den sanktionierten Firmen gehört auch T-Platforms, die den Lomonosov 2 an die gleichnamigen Moskauer Uni geliefert hat (derzeit auf Platz 240).

Es gilt als sicher, dass in China bereits geraume Zeit mindestens zwei Exascale-Systeme in Betrieb sind [5], das erste, der „Sunway TaihuLight 2“, wahrscheinlich schon seit März 2021. Nach den Erkenntnissen der gewöhnlich gut unterrichteten HPC-Onlineplattform The Nextplatform [6] wurden Kernzahl der Sunway-Prozessoren auf 512 Rechen- und 12 Kontrollprozessoren verdoppelt und der SW52020 genannte Prozessor in 14-nm-Technik hergestellt. Die Architektur erinnert an IBMs Cell-Prozessor, der 2008/2009 im „Road Runner“ die Nr. 1 der Top500 befeuerte, nur hat der SW52020 64-mal so viele Rechenkerne.

Daneben dürfte ein auf ARMv8-Architektur basierter Rechner Tianhe-3, unterstützt von selbstentwickelten Beschleunigern Matrix 2000+, ebenfalls den Exascale-Bereich erreicht haben. Die Prozessorarchitektur von Phytium wurde unter dem Namen Mars auf der Hot-Chips-Konferenz 2016 in Cupertino vorgestellt, [7] die konkreten Prozessoren laufen nun unter „Feiteng“. Allerdings musste der taiwanische Hersteller TSMC die Fertigung für Phytium einstellen, da auch diese Firma auf die US-Sanktionsliste vom April 2021 kam.

Trotz des aktuellen Stillstands bleibt China mit den 173 „Altsystemen“ Spitzenreiter bei den Ländern. Die USA konnten allerdings gegenüber der letzten Liste von November 2021 nicht zulegen, sondern hat im Gegenteil nur noch 127 (von zuvor 144) Systemen platziert.

Europa (ohne Russland) hingegen legte von 98 auf 111 zu, den stärksten Zuwachs hatte Deutschland von 26 auf 31. In der installierten Performance sieht das allerdings recht anders aus, hier steht dank des mächtigen Frontiers und der anderen Cray-EX235a-System die USA mit 2,1 EFlops weit vorne vor Europa (816 PFlops), Japan (628 PFlops) und China (530 PFlops).

Innerhalb Europas führt Deutschland (200 PFlops) vor Frankreich (169 PFlops) und der Lumi-Gruppe mit Sitz in Finnland (165 PFlops). Mit recht weitem Abstand folgt dahinter Großbritannien (57 PFlops).

Bei den Herstellern verzerrt Chinas Stillstand auch die Zahlen, dennoch führt hier in Stückzahl weiterhin Lenovo mit 159 vor HPE/Cray mit 98, aber HPE/Cray liegt natürlich mit insgesamt 1,9 EFlops in anderen Regionen als Lenovo mit 445 PFlops.

Trotz der vielen Änderungen im Top10-Bereich gab es nur sehr wenige Neusysteme in der Liste, mit 39 die geringste Erneuerungsrate seit dem fast 30-jährigen Bestehen der Top500-Liste. Neun Neusysteme stehen in den USA, fünf in Deutschland.

In Deutschland dominieren weiterhin die drei Großzentren des Gauss Centre for Supercomputer die Szene, unverändert wie im letzten Jahr: vorne Jülich mit dem Juwels Booster [8] (Bull Sequana, AMD Epyc 7402, Nvidia A100, 44,1 PFlops, Platz 11), gefolgt vom SuperMUC-NG [9] des Leibnizrechenzentrums (LRZ: Lenovo, Xeon Platinum 8174, 19,4 PFlops, Platz 26) und dem Hawk am HLR-Stuttgart (HPE, AMD Epyc 7742, 19,3 PFlops, Platz 27).

Der Noctua 2 am Paderborn Center for Parallel Computing hat AMD-Epyc-7763-Knoten, aber auch welche mit Nvidia A100 sowie mit AMD-/Xilinx-FPGAs (Alveo U280).

(Bild: Uni Paderborn/Jens Simon)

Die Liste der fünf Neuplazierten führt der alpha One des Heidelberger KI-Forschungs- und Anwendungsunternehmens Aleph Alpha mit Platz 73 an. Das Apollo-6500-System von HPE arbeitet mit kleineren AMD EPYC 7F52 (16 Kerne) und Nvidia A100 und kommt auf 7,6 PFlops im Linpack.

Dahinter folgt bei den Neulingen auf Platz 121 der “Noctua 2” der Universität Paderborn, eine BullSequana XH2000, ebenfalls bestückt mit AMD Epyc, aber mit den “dicken” 64-Kernern Epyc 7712 und ohne Beschleuniger, das 4,2 PFlops auf die Matte bringt.

Alex der FAU-Uni Erlangen-Nürnberg setzt ebenfalls auf dickere 64-Kern-AMD-Prozessoren (Epyc 7713), allerdings begleitet von Nvidias A100-Beschleunigern. Damit erzielt er 2,2 PFlops und erreicht Platz 184 (Update: hier wurde irrtümlich Platz 324 genannt). Alex wurde von der Chemnitzer Firma Megware aufgebaut, die gleich noch zwei Intel-Xeon-Systeme in Deutschland neu ins Top500-Rennen bringen konnte: Fritz, ebenfalls an der FAU ("Fritz-Alex-Uni") mit 2,2 PFlops auf Platz 323 und HSuper an der Helmut-Schmidt-Universität der Bundeswehr in Hamburg mit 2,1 PFlops, auf Platz 339. Megware hat mit Lichtenberg an der Uni Darmstadt (Platz 165) und Mogon II (zusammen mit NEC, Platz 397) an der Uni Mainz aktuell noch zwei weitere Systeme in der Liste. Die ostdeutsche Firma Megware wurde 1990 unmittelbar nach der Wende gegründet und konnte seitdem mit 25 Systemen in der Top500 aufwarten, zumeist in Deutschland, aber auch in Österreich und Norwegen.

Intel dominiert zwar mit 388 von 500 Systemen weiterhin die Liste, ist damit jedoch weit von der Dominanz der früheren Jahre entfernt, wo Intel auf bis zu 478 von 500 kam. 94 Systeme sind inzwischen mit AMD bestückt. Was Intel zu denken geben muss, ist, dass 20 der 39 Neusysteme mit AMD-Prozessoren bestückt sind.

Das hat insbesondere auch seinen Grund in der enormen Verspätung der speziell für HPC vorgesehenen Prozessoren. Ursprünglich war für das Exascale-Projekt Aurora ja ein Xeon Phi vorgesehen. Just hier am ISC-Tagungsort in Hamburg hatte Intels damaliger HPC-Chef Kirk Skaugen vor zehn Jahren für 2018 die ersten Exascale-Systeme mit Xeon Phi versprochen. Daraus wurde jedoch nichts, der Xeon Phi wurde eingestampft und Kirk Skaugen wechselte zu Lenovo. Intel versprach dann neue HPC-Prozessoren (Sapphire Rapids) und GPUs (Ponte Vecchio), die aber auf sich warten ließen: Aurora wurde Jahr um Jahr verschoben.

Auch das Leibnizrechenzentrum in München/Garching hat sich auf Intels HPC kapriziert – und mitgewartet. Hoffentlich nicht umsonst, Samuel Becketts Godot kam ja auch nie ... Nun wird aber Aurora am Argonne National Lab schon aufgebaut – allein die Prozessoren und GPUs fehlen noch.

Und damit nach vielen schlechten Erfahrungen nun mit den GPUs nichts anbrennt, hatte Intel vor einigen Jahren den legendären Raja Kudori von AMD abgeworben, der für die Vega-GPUs verantwortlich zeichnete und die Grundlagen für den Nachfolger Instrinct MI250X legte. Und dieser Nachfolger bietet jetzt dem GPU-Platzhirschen Nvidia heftig Paroli. Zwar findet man ihn in der aktuellen Top500-Liste nur in 7 Systemen, die es aber mit 1,32 EFlops in sich haben.

Nvidia hat demgegenüber 154 Rechner mit eigenen GPU-Beschleunigern in der Liste, die insgesamt aber nur auf 1,26 EFlops kommen. Und bei der Energieeffizienz (Green500) belegen wie eingangs erwähnt nun AMDs GPUs die vorderen Plätze, Nvidia ist weit zurückgefallen, am energieeffizientesten ist eine Apollo 6000 in Südkorea auf Platz 6 mit 34 GFlops/Watt.

Alle 500 Systeme zusammen kommen auf eine Leistung von 4,4 EFlops. Die Steigerung gegenüber der letzten Liste vor einem halben Jahr liegt damit mit 45 Prozent dank des neuen Spitzensystems Frontier weit über dem Schnitt der letzten Jahre.

Top10 der 59. Top500-Liste
Platz (zuvor) System (Hersteller) Einrichtung Land CPU-Cores GPU-Cores Linpack Rmax (PFlops) Energie-effizienz (GFlops/W) HPCG (TFlops)
1 Frontier Oak Ridge National Lab USA 9408 × 64 AMD Epyc Milan 37.632 × 256 AMD MI250X 1102 52,2 k.A.
2 (1) Fugaku (Fujitsu) Riken Japan 158.976 × 48 A64FX 2,2 GHz 442 15,4 16.004
3 Lumi  EuroHPC/CSC Finnland + LUMI-Länder 1134  × 64 4620  × 256 AMD MI250X 151,9 51,5 1.936
4 (2) Summit (IBM) Oak Ridge National Lab USA 9.216 × 22 Power9, 3,07 GHz 27.648 × 80 Tesla V100 148,6 14,7 2.926
5 (3) Sierra (IBM) Lawrence Livermore National Lab USA 8.640 × 22 Power9, 3,1 GHz 17.280 × 80 Tesla V100 94,6 12,7 1.796
6 (4) Sunway TaihuLight (NRCPC) National Supercomputing Center in Wuxi China 40.960 × 260 ShenWei 26010, 1,45 GHz 93,01 6,05 481
7 (5)  Perlmutter (HPE/Cray) NERSC USA 1536 × 64 AMD Epyc 7763, 2,45 GHz 6144 × 108 Nvidia A100 70,9 27,3 1.905
8 (6) Selene Nvidia USA 1120 × 64 AMD Epyc 7742, 2,25 GHz 4480 × 108 Nvidia A100 63,5 23,9 1.623
9 (7) Tianhe-2A (NUDT) National Supercomputing Center in Guangzhou China 35.584 × 12 Xeon E5-2692v2, 2,2 GHz 35.584 × 128 Matrix 2000 61,4 3,32 k.A.
10 Adastra GENCI/CINES Frankreich 338 × 64 AMD Milan 1162? x 256 AMD MI250X 46,1 50,03 562,1

(as [10])


URL dieses Artikels:
https://www.heise.de/-7125454

Links in diesem Artikel:
[1] https://www.heise.de/news/Frontier-Der-naechste-verspaetete-Supercomputer-dieses-Mal-mit-AMD-Hardware-6656513.html
[2] https://www.heise.de/bilderstrecke/bilderstrecke_7125773.html?back=7125454;back=7125454
[3] https://www.heise.de/bilderstrecke/bilderstrecke_7125773.html?back=7125454;back=7125454
[4] https://www.heise.de/news/AMDs-Exascale-Hammer-Epyc-3-mit-804-MByte-Cache-Instinct-MI200-mit-47-9-TFlops-6260184.html
[5] https://www.heise.de/news/Bestaetigt-China-betreibt-schon-zwei-ExaFlops-Supercomputer-6271638.html
[6] https://www.nextplatform.com/2021/02/10/a-sneak-peek-at-chinas-sunway-exascale-supercomputer/
[7] https://www.heise.de/news/Hot-Chips-Mars-Prozessor-mit-ARMv8-fuer-High-Performance-Computing-2788775.html
[8] https://www.heise.de/news/SC-Juelich-Booster-mit-70-Pflops-im-naechsten-Jahr-4586737.html
[9] https://www.heise.de/news/SuperMUC-NG-Bayern-in-der-Champions-League-der-Supercomputer-4171864.html
[10] mailto:as@ct.de