Top500-Supercomputer: Deutschland übernimmt die Europa-Spitze

Mit dem Juwels-Booster und dem schwäbischen Hawk ziehen zwei weitere hiesige Supercomputer in die oberen Ränge der 56. Top500-Liste ein.

55

JUWELS in Jülich, links das Booster-Modul

(Bild: FZ Jülich)

16.11.2020, 22:00 Uhr

Lesezeit: 11 Min.

c't Magazin

Von

Andreas Stiller

Siebeneinhalb Jahre hat es gedauert, nun konnte das Jülich Supercomputing Centre wieder die Spitzenposition bei den Supercomputern in Europa übernehmen. Der von Atos/Bull aufgebaute JUWELS Booster mit AMD Epyc 7002 "Rome" kommt dank 3744 Nvidia-Ampere-GPUs (A100) auf 44,1 PFlops im doppeltgenauen Linpack (FP64). Damit liegt er in der zu Beginn der virtuell abgehaltenen Supercomputing Conference SC20 veröffentlichen 56. Top500-Liste weltweit auf Platz 7 und verdrängt den bisherigen Spitzenreiter HPC5 des italienischen Mineralölkonzerns ENI auf Platz 8.

Ansonsten hat sich bei den oberen Plätzen der Top500 wenig getan, an den ersten vier gar nichts. Es führt weiterhin unangefochten der japanische Fugaku mit A64FX-(ARM-)Prozessoren mit 442 PFlops vor den beiden amerikanischen Power9/Nvidia-V100-Rechnern Summit (149 PFlops) und Sierra (94,6 PFlops).

Videos by heise

Der mittlerweile schon etwas betagte Sunway TaihuLight hält als schnellstes chinesisches System den vierten Platz mit 93 PFlops. Auf Platz 4 konnte sich Nvidias hauseigenes DGX-A100-System "Selene" vorarbeiten, weil es im Vergleich zur 55. Top500-Liste kräftig von 27,6 auf 63,5 PFlops aufgerüstet wurde.

Neu hinzugekommen ist auf dem 10. Platz ein noch weit größerer Erdölkonzern als ENI: Saudi Aramco. Der von HPE/Cray aufgebaute Dammam 7 (benannt nach der berühmt gewordenen Bohrstelle an der saudischen Hafenstadt Dammam) mit Intel Xeon Gold 6248 und Nvidia Tesla V100 kommt auf 22,4 PFlops.

Top10 der Top500-Liste vom November 2020 (10 Bilder)

Nr. 1

Weiterhin unangefochten die Nr. 1: Japans Fugaku am Forschungsinstitut Riken kommt ausschließlich mit ARM-Prozessoren (samt integrierten SVEs) auf 415 PFlops.
(Bild: Riken Center for Computational Science)

Energieeffizienter Super-Booster

Jülichs Booster, der das vorhandene JUWELS Modul 1 (Intel Skylake, 6,1 PFlops, Platz 44) ergänzt, besteht in der Rechenfarm aus 30 warmwassergekühlten BullSequana-XH2000-Cabinets, von denen jedes bis zu 32 Blades (BullSequana X2415) aufnehmen kann. Jedes dieser Blades ist mit zwei AMD-Epyc-7402-Prozessoren und mit vier Nvidia-A100-SXM4 -GPUs bestückt, die untereinander mit Nvlink 3 verknüpft sind (600 GByte/s). Jede A100-SXM4 kann mit ihrer 32/64-Bit Tensor-Unit bis zu 19 TFlops (64 Bit) erreichen. Das wären für die 3744 Karten also theoretisch bei den von Nvidia angegebenen 9476 GFlops pro GPU 73 PFlops – tatsächlich sind aber vom JSC als theoretischer Spitzenwert nur 71 PFlops angegeben. Wie Dr. Krause vom JSC mitteilte, haben nicht alle Karten mitgerechnet.

In der Linpack-Effizienz (Linpack-Wert im Verhältnis zur Peak-Leistung) ist er mit 62 Prozent nur mäßig. Auch die anderen beiden BullSequana-Systeme in der Liste liegen mit 55 und 66 Prozent ziemlich weit von den über 80 Prozent weg, die Nvidia beim Selene angibt. Allerdings rechnen JSC und Nvidia auch unterschiedlich. JSC errechnet den Peakwert aus dem propagierten Boostwert von 9746 GFlops, Nvidia den real beim Linpack laufenden Takt, mit dem die GPU nur etwa 9000 GFlops erzielt. So ein Taktdurcheinander gibt es bei anderen aber auch, bei Intel-Prozessoren etwa Grundtakt oder AVX-Takt, mit oder ohne Turboboost.

Spannender ist zudem die andere Effizienz, nämlich die Energieeffizienz – und hier setzt JUWELS Booster neue Maßstäbe. Mit ziemlich genau 25 GFlops/Watt setzt er im Oberhaus der wirklich großen Systeme (die oberen hundert der Liste) an die Spitze, noch vor Nvidias hauseigener Selene (24 GFlops/Watt) und der Power9/Xeon-Konkurrenz mit Nvidia Tesla V100, die so um 15 GFlops/Watt liegt, genauso wie das Spitzenmodell Fugaku.

Noch mehr Deutsches

Außer dem JUWELS Booster sorgen zwei weitere neue Systeme dafür, dass Deutschland in der europäischen Supercomputerszene besonders gut dasteht. Da ist vor allem der HAWK des HLR-Stuttgart zu nennen, der bereits im Februar eingeweiht wurde und den man eigentlich schon in der Juni-Liste der Top500 erwartet hatte. Vielleicht hoffte HLRS-Chef Prof. Resch da ja noch, den nur ganz knapp davorliegenden Super-MUC-NG vom Leibniz-Rechenzentrum zu überholen, der mit 19,48 PFlops (Platz14) nur hauchdünn vor den nun veröffentlichten 19,33 PFlops des Hawk (Platz 15) liegt.

Beide Rechner eint, dass sie ihre Rechen-Power (bislang) allein aus CPUs ziehen, Intel Xeon Platinum 8174 in München/Garching hier und AMD-Epyc 7742 in Stuttgart da. Damit stehen sie hinter dem Frontera am Texas Advanced Computing Centre und dem japanischen Fugaku bei Riken ganz weit vorne bei den "General Purpose"-Rechnern – schließlich gibt es immer noch zahlreiche Aufgabenbereiche in HPC, die von GPUs und Beschleunigern mehr schlecht als recht bewerkstelligt werden können.

Der zweite hiesige Neuling ist Emmy+ vom HLRN am Standort Göttingen in der zweiten Ausbaustufe. Wie sein schon etwas länger im Betrieb befindliches Gegenstück des HLRN am Standort Berlin namens Lise gehört er zu den ganz wenigen Auserwählten, die mit Intels edlem 48-Kerner Xeon Platinum 9242 bestückt sind (da gibt's sonst nur noch den Magma am Lawrence Livermore National Lab). Emmy+ ist jetzt mit 5,9 PFlops (Platz 47) noch ein bisschen fixer als die Berliner Kollegin Lise mit 5,4 PFlops(Platz 56).

Emmy hatte sich um etwa eineinhalb Jahre verzögert, ein wenig letztlich auch durch Corona, vor allem aber dadurch, dass sich irgendwann urplötzlich herausstellte, dass gar kein Gebäude dafür vorhanden ist und man für 1,8 Millionen Euro spezielle Container nachordern musste. Da freut sich der Steuerzahler.

Aber offenbar hat sich der Umzug von Hannover nach Göttingen doch gelohnt, denn da steht nun der Rechner im gemeinsam von der Uni Göttingen und der Max-Planck-Gesellschaft (GWDG) geführten Rechenzentrum unter der Leitung des renommierten Professors Ramin Yahyapour. Und der bekam letzten Freitag seinen Antrag auf Förderung durch die Gemeinsame Wissenschaftskonferenz (GWK) von Bund und Ländern genehmigt: Immerhin 72 Millionen Euro für die beiden Standorte des HLRN für die nächsten 10 Jahre. Das Ganze läuft dann im Rahmen eines neu zu gründenden Verbunds Nationales Hochleistungsrechnen (NHR).

Wiedereinzug der Vektorrechner

Ein interessanter weiterer deutscher Neuling ist der Rechner des Deutschen Wetterdienstes (DWD), der mit seiner Architektur herausragt, denn er ist mit der Vector Engine NEC SX-Aurora TSUBASA bestückt. So zieht elf Jahre, nachdem mit dem SX-9 der letzte Vektorrechner in die Top500-Liste gekommen ist, wieder ein Vektorrechner ein.

Auf der ISC19 hatte der DWD den Vertrag mit NEC in Höhe von etwa 50 Millionen Euro unterschieben. Auf der SC19 wurden die dafür vorgesehenen Racks von NEC vorgestellt. Nun ist der Rechner mit 232 wassergekühlten A412-8-Rackeinschüben fertig. Jeder Einschub enthält einen AMD-Rome-Prozessor und 8 Aurora-Karten. Sie haben derzeit noch die alte Version 1 (10AE) mit jeweils 8 Kernen bei 1,54 GHz. Jeder Kern kommt damit auf etwa 300 GFlops Spitzenleistung. Im Linpack erreichen die 1856 Aurora-Karten 2,6 PFlops (Platz 142). Ein etwas größeres System gibts ansonsten noch in Japan, das mit 4320 Aurora-Karten auf 7,9 PFlops kommt (Platz 33). Die energetische Effizienz ist mit 5,7 GFlops/Watt eher bescheiden, jedenfalls wenn es es mit Nvidia-GPUs vergleicht, da muss man auf die neue Version 2 hoffen.

Intel hat den HPC-Markt fast ganz erobert, aber jetzt gibt es verstärkt Gegenwehr, vor allem durch AMD, ein wenig von IBM und von Fujitsu und NEC

(Bild: top500)

Insgesamt hat sich die Leistung der deutschen Rechner gegenüber der letzten Liste im Juni verdoppelt. Am gesamten Leistungszuwachs aller 500 Rechner in der Top500-Liste gegenüber Juni von 228 PFlops ist Deutschland diesmal mit über 30 Prozent beteiligt, das gabs noch nie. 23 Prozent waren es mal im Juni 2009 als Jülich den Blue Gene/P auf 825 TFlops aufrüstete.

So steht Deutschland nun mit 19 platzierten Systemen und 140 PFlops vor Frankreich (18 Systeme, 90 PFlops) und Italien (6 Systeme, 78,5 PFlops). Großbritannien verliert weiter an Boden (12 Systeme, 34 PFlops).

China führt in Summe

Weltweit führt China mit 212 Systemen vor den USA mit 113, Japan mit 34 und Deutschland mit 19. In der Gesamtperformance bleibt jedoch America first, mit 669 PFlops vor Japan (594 PFlops), China (564 PFlops) und Deutschland. Von den deutschen 140 PFlops kann man jedoch getrost 9 PFlops abziehen, denn die Liste enthält noch die beiden Oldies SuperMUC (Platz 114) in München und Hazel Hen (Platz 51) in Stuttgart, die schon längst deinstalliert sind. Man findet in der Liste auch anderswo so manchen 8- bis 10-jährige Oldie, etwa mit Sandy-Bridge- oder Nehalem-Prozessoren, die vermutlich ebenfalls inzwischen den Betrieb eingestellt haben dürften. Darunter wohl auch Chinas lange Zeit Nr.1-Rechner Tianhe-1 auf Platz 147. Neue Rechner werden eben sofort gemeldet, ans Abmelden wird selten gedacht ...

Und Afrika?

Erwähnenswert ist auch der Eintritt von Marokko als nunmehr 60. Mitglied in den Club der Top500er. Nigeria und Ägypten waren früher mal vertreten, Südafrika ist meistens dabei – nur aktuell reicht die Rechenleistung ihres Lengau nicht aus, um auf die Liste zu kommen, denn mindestens 1,3 PFlops müssen es schon sein. So hält nun allein Marokko die afrikanische Flagge hoch, und zwar ganz schön hoch mit einem Dell-PowerEdge-System C6420 mit Intel Skylake an der Polytechnischen Universität Mohammed VI : Mit 3,2 PFlops erreicht er Platz 99 der Liste, und das ohne Beschleuniger.

Was Intel bei den Prozessoren ist Nvidia bei den Beschleunigern/GPUs. Aber vielleicht kommt ja AMD mit den neuen Instinct MI100 hier auch wieder ins Rennen

(Bild: Top500)

Bei den Herstellern ist Lenovo stückzahlmäßig mit 180 Systemen ganz weit vorne, vor HPE/Cray mit 76 und Inspur mit 66. In installierter Performance hält jedoch Fujitsu dank des Fugaku mit insgesamt 526 PFlops klar die Spitze, wozu noch drei kleinere A64FX-Systeme und zehn mit Intel-Prozessoren und eines mit SPARC64 beigetragen haben. Hinter Fujitsu folgt HPE/Cray mit 362 PFlops vor Lenovo (355 PFlops) und IBM (203 PFlops). Intel hat ein wenig "Marktanteile" verloren, 459 der 500 Systeme sind mit Intel-Prozessoren bestückt, bei 22 stammen die Prozessoren inzwischen von AMD, 9 von IBM. AMD hat derweil angekündigt, dass die dritte Zen-Generation in diesem Quartal auch im Epyc anlaufen solle, und mit der neuen Instinct MI100 hat man nun eine GPU-Karte mit rund 12 TFlops (64 Bit). Damit dürfte AMD weitere Marktanteile im HPC-Bereich gewinnen.

Insgesamt ist die Gesamtrechenleistung aller Systeme in der 56. Top500-Liste nur von 2,2 auf 2,43 EFlops, also um 10 Prozent gestiegen. In der Liste vom Juni waren es dank Fugaku 34 Prozent, davor aber gerade mal 6 Prozent. Nächstes Jahr erwartet man wieder größere Zuwächse mit richtig "dicken" Eisen, auch aus Europa, darunter die EuroHPC-Rechner Lumi in Finnland (AMD Epyc und Instinct mit 375 PFlops) sowie Leonardo in Italien (200 PFlops mit Nvidia A100). Die EU hat für das EuroHPC-Projekt große Investitionen um die 8 Milliarden Euro für die nächsten Jahre angekündigt mit etlichen Rechnern in Luxemburg, Tschechien, Slowenien, Bulgarien, Spanien ... hin zu den Exaflops.

Top10 der 56. Top500-Liste
Platz (zuvor)	System (Hersteller)	Einrichtung	Land	CPU-Cores	GPU-Cores	Linpack Rmax (PFlops)	Energie-effizienz (GFlops/W)	HPCG (TFlops)
1 (1)	Fukagu (Fujitsu)	Riken	Japan	158.976 × 48 A64FX 2,2 GHz	0	442	14,78	16004,5
2 (2)	Summit (IBM)	Oak Ridge National Lab	USA	9.216 × 22 Power9, 3,07 GHz	27.648 × 80 Tesla V100	148,6	14,72	2925,75
3 (3)	Sierra (IBM)	Lawrence Livermore National Lab	USA	8.640 × 22 Power9, 3,1 GHz	17.280 × 80 Tesla V100	94,64	12,72	1795,67
4 (4)	Sunway TaihuLight (NRCPC)	National Supercomputing Center in Wuxi	China	40.960 × 260 ShenWei 26010, 1,45 GHz	0	93,01	6,05	480,84
5 (7)	Selene	Nvidia	USA	1120 × 64 AMD Epyc 7742, 2,25 GHz	4480 × 108 Nvidia A100	63,5	23,98	1622,51
6 (5)	Tianhe-2A (NUDT)	National Supercomputing Center in Guangzhou	China	35.584 × 12 Xeon E5-2692v2, 2,2 GHz	35.584 × 128 Matrix 2000	61,44	3,33	k.A.
7(-)	JUWELS Booster	Jülich SC	Deutschland	1872 × 24 AMD Epyc 7402	3744 × 108 Nvidia A100	44,1	25,0	1275,36
8 (7)	HPC5 (DellEMC)	Eni	Italien	3.640 × 24 Xeon Gold 6252	7280 × 80 Tesla V100	35,45	15,74	860,32
9 (8)	Frontera (DellEMC)	Texas Advanced Computing Center (TACC)	USA	16.016 × 28 Xeon Platinum 8280, 2,7 GHz	0	23,52	k.A.	k.A.
10(-)	Dammam 7 (HPE/Cray)	Saudi Aramco	Saudi-Arabien	1978 × Xeon Gold 6248	7912 × 80 Tesla V100	22,40	k.A.	881,40