Top500 der Supercomputer: Amerika first, aber wohl nur kurz

Der US-amerikanische Summit-Rechner liegt nun auf Platz 1 in der neuen 51. Top500-Liste der Supercomputer.

25.06.2018, 09:00 Uhr

Lesezeit: 7 Min.

Von

Andreas Stiller

Top500 der Supercomputer: Amerika first, aber wohl nur kurz

Er wurde schon vor zwei Wochen mit viel Tamtam vorgestellt, der US-amerikanische Summit-Supercomputer am Oak Ridge National Lab mit über 9000 IBM Power9-Prozessoren und rund 27.000 Nvidia Tesla V100. Mit 122 PFlops ist er nun auch wie geplant Spitzenreiter der neuen 51. Top500-Liste der Supercomputer geworden, die zum Auftakt der ISC 18 in Frankfurt am Main veröffentlicht wurde. Und das, obwohl dabei noch nicht einmal alle geplanten 4608 Knoten mitgerechnet haben, sondern "nur" 4356 – ein jeder Knoten mit zwei Power9-Prozessoren und sechs Tesla V100-SXM2 mit Nvlink2.

Die Linpack-Effizienz des Rechners liegt bei guten 65 Prozent und damit besser als bei Nvidias eigenen DGX-Systemen mit Tesla V100 – möglicherweise haben aber auch die Power9-Prozessoren mitgerechnet, die mit ihren 22 Kernen bei 3,07 GHz Takt bereits alleine eine theoretische Spitzenleistung von 4,7 PFlops erreichen (das wäre derzeit etwa Platz 37). Mit den Tensor-Einheiten der Tesla V100 kann der Summit in Mixed Precision (FP16/FP32) theoretisch sogar über 3 ExaFlops erzielen, in praktischen Anwendungen waren es bislang knapp 1,5 ExaFlops.

Doppelte Genauigkeit

Der klassische Linpack-Benchmark setzt jedoch doppelte Genauigkeit (FP64) voraus, da kann Nvidias Tensor-Unit nicht mithelfen. Mit seinen 122 PFlops verdrängt dann Summit den chinesischen Sunway TaihuLight, der mit 93 PFlops seit zwei Jahren die Liste angeführt hatte.

Sierra am Lawrence Livermore National Laboratory (LLNL, USA)

(Bild: LLNL)

Dahinter kommt der kleine Bruder von Summit namens Sierra, der bislang immer etwas im Schatten des großen Summit-Bruders stand. Er ist ebenfalls mit Power9 und Nvidia Tesla V100 bestückt, allerdings nur mit 4320 Knoten mit je 4 statt 6 Tesla-V100-Karten. Damit erzielt er 71,6 PFlops.

Der auch für dieses Jahr eigentlich mal vorgesehene Dritte im Bunde, der Rechner der CORAL-Initiative mit Intel Xeon Phi an den Argonne National Labs, ist – umgewidmet auf spezielle HPC-Xeon-Prozessoren – auf 2021 verschoben.

Einen ganz kleinen Summit-Bruder gibt es zudem auch in Europa, am Barcelona Supercomputing Center. Der Mare Nostrum P9 CTE belegt zwar mit seinen 1,49 PFlops nur Platz 256, ist aber mit 11,9 GFlops/Watt noch etwas energieeffizienter als Summit, nur geschlagen duch die "Tank-Systeme" mit Immersionskühlung, insbesondere die drei japanischen Zettascale-Systeme mit dem Pezy- SC2-Beschleuniger, die den Wert inzwischen auf bis zu 18,4 GFlops/Watt geschraubt haben.

... und China

Somit gehen nun Platz eins und drei an die USA. Die Chinesen haben allerdings am 17. Mai auf dem 2nd World Intelligence Congress in Tianjin bereits erste Racks des geplanten Exascale-Rechners Tianhe-3 auf Basis selbst entwickelter Prozessoren und Interconnects vorgestellt. Für die nächste Top500-Liste im November dürfte schon eine kleinere Ausbaustufe des Tianhe-3 locker die 122 PFlops toppen – jedenfalls im Linpack. Beim speicherlastigen HPCG-Benchmark ist Summit indes mit 2926 TFlops um Faktor 6 schneller ais TaihuLight, auch Sierra rechnet mit 1795 TFlops in einer anderen Dimension. Wie das bei Tianhe-3 aussehen wird, weiß man noch nicht.

Auf dem vierten Platz folgt ein weiterer chinesischer Rechner: der erheblich um- und aufgerüstete Tianhe-2A. Bei ihm haben die Betreiber die alten, lahmen Xeon Phis hinausgeschmissen und durch eigene Accelerator-Karten mit Matrix-2000-Chips ersetzt. Die erbringen jetzt mit 61,4 PFlops fast die doppelte Linpack-Leistung.

Fujitsu Primergy CX2550 M4 im schnellsten japanischen Rechner am AIST

(Bild: Fujitsu)

Zu Platz fünf gibt es dann einen sehr großen Abstand. Da folgt der neue schnellste japanische Rechner, eine Fujitsu-Primergy am National Institute of Advanced Industrial Science and Technology (AIST). Mit seinen Intel-Skylake-Xeons und Nvidia Tesla V100 erzielt er 19,9 Pflops und hat damit hauchdünn die Performance-Nase vor dem schnellsten Europäer vorn, dem Piz Daint im schweizerischen Lugano mit 19,6 PFlops.

Veränderungen

Insgesamt hat sich in der Top10 diesmal im Unterschied zu den letzten beiden Listen also allerhand getan: drei Neulinge und ein erheblich aufgerüsteter Rechner. America First gilt indes nur in diesem Leuchtturmbereich. Schaut man sich die gesamte Liste an, so dominieren Systeme in China mit 206 Systemen (zuvor 202) vor den USA mit nur noch 124 (zuvor 143). Dahinter folgen Japan (36/35), Großbritannien (22/15), Deutschland (21/22) und Frankreich (18/18). Europa insgesamt hat immerhin gegenüber Nordamerika und Asien etwas zugelegt, von 93 auf 101 Rechner.

JUWELS am Jülich Supercomputing Centre (JSC)

(Bild: JSC)

Deutschlands Schnellster im Dreikampf der drei führenden im Gauss Centre for Supercomputing zusammengeschlossenen Rechenzentren steht jetzt wieder in Jülich: Der Juwels Modul 1 kommt mit 6,2 Pflops auf Platz 23 und verdrängt das Cray-System Hazel Hen im HLR Stuttgart auf den deutschen Platz 2. Juwels schafft aber nur wenig mehr als schon der uralte, inzwischen entsorgte Bluegene-Rechner Juqueen mit seinen 5 Pflops schaffte. Doch Juwels ist ein Bull Sequana mit Xeon Platinum 8168 ohne Beschleuniger. Hier wartet man eigentlich noch auf den wirklich großen Sprung nach vorne beim Jülicher Supercomputer Center.

Mit im deutschen Spitzenbereich eingemischt hat sich derweil auch die Max-Planck-Gesellschaft mit Cobra, der bestückt mit Intel Xeon Gold 6148 ohne Beschleuniger auf 5,6 Pflops kommt und damit Platz 28 belegt. Schnellster klassischer deutscher Uni-Rechner ist weiterhin der Mogon II an der Johannes-Gutenberg-Universität Mainz, der erst im April offiziell eingeweiht wurde. Er liegt jetzt mit 1,96 Pflops auf Platz 87.

Die meisten Systeme der Liste (279) sind inzwischen unbenannte Industrie-Systeme, traditionell viele von HPE, inzwischen aber vor allem von Lenovo. Da sieht man dann große Blöcke, alle mit den gleichen Werten. Von Lenovo C1040 sind es zum Beispiel gleich 26 identische Neusysteme in Serie. Man erfährt zwar in welchem Industrie-Bereich (Internet Provider, Trading Company, Software Development, Telecom …) die Firma tätig ist, aber zumeist nicht deren Namen. So führt nun Lenovo (inklusive Lenovo/IBM) mit 120 Systemen (zuvor 79) weit vor HPE (79, zuvor 122), Inspur (68/56), Cray(56/53) und Sugon (55/51).

... und AMD und ARM?

Von AMD Epyc und ARM (ThunderX2, Centriq 2400) ist in der Liste noch nichts zu sehen – Astra mit über 5000 Cavium-ThunderX2-Prozessoren und einer theoretischen Spitzenleistung von 2,3 PFlops an den Sandia National Labs derzeit noch im Aufbau. So dominiert weiterhin Intel total mit 475 Systemen, da ändern auch die zwei, drei Power9-Syteme nichts dran. Es bleibt ohnehin abzuwarten, ob es bei Power9 bei solchen Leuchtturm-Projekten bleibt oder ob im Rahmen von OpenPower vielleicht auch der breite Massen-HPC-Markt mit attraktiven Angeboten erreicht werden kann.

Insgesamt sind 132 Systeme neu in die Liste eingezogen. Die Mindestleistung dafür liegt jetzt bei 716 TFlops, im November 2017 reichten noch 549 TFlops. Vor allem dank der neuen Spitzensysteme stieg die Gesamtleistung aller Systeme in der Top500 um kräftige 42 Prozent auf 1,2 ExaFlops – gemeinsam hat man also die Exascale-Marke schon übertroffen. Im Schnitt dauerte es bislang etwa drei Jahre, bis ein einziges Spitzensystem die Gesamtleistung der Top500 erzielte.

[Update:] Einige Platzierungen und Werte korrigiert.

Top 10 der 51. Top500-Liste der Supercomputer
Platz (vor. Liste)	Rechner (Hersteller)	Betreiber	Land	CPU-Cores	GPU-Cores	Rmax (PFlops)	Energie-effizienz (GFlops/W)	HPCG (TFlops)
1(-)	Summit (IBM)	Oak Ridge National Lab	USA	8712 × 22 Power9, 3,07 Ghz	26.136 × 80 Tesla V100	122,3	13,89	2925,75
2 (1)	Sunway TaihuLight (NRCPC)	National Supercomputing Center in Wuxi	China	40.960 × 260 ShenWei 26010, 1,45 GHz	0	93,016	6,05	480,84
3 (-)	Sierra (IBM)	Lawrence Livermore National Lab	USA	8.640 × 22 Power9, 3,1 Ghz	17.280 × 80 Tesla V100	71,61	n.n	1795,67
4 (2) upgrade	Tianhe-2A (NUDT)	National Supercomputing Center in Guangzhou	China	35.584 × 12 Xeon E5-2692v2, 2,2 GHz	35.584 × 128 Matrix 2000	61,44	3,33	k.A.
4 (-)	ABCI	AIST	Japan	2176 × 20 Xeon Gold 6148, 2,4 Ghz	4352 × 80 Tesla V100	19,88	12,05	k.A.
6 (3)	Piz Daint (Cray)	Centro Svizzero di Calculo Scientifico (CSCS)	Schweiz	5320 × 12 Xeon E5-2690v3, 2,6 GHz (+2862 × 18 Xeon E5-2695v4)	5320 × 56 Tesla P100	19,59	10,4	486,39
7(5)	Titan (Cray)	Oak Ridge National Lab	USA	18.688 × 16 Opteron 6274, 2,2 GHz	18.688 × 14 Tesla K20x	17,59	2,14	322,32
8 (6)	Sequoia (IBM)	Lawrence Livermore National Lab	USA	98.304 × 16 Bluegene/Q, 1,6 GHz	0	17,17	2,18	330,37
9 (7)	Trinity (Cray)	DOE/NNSA/LANL/SNL	USA	18.872 × 16 Xeon E5-2698v3, 2,3 GHz + 14.144 × 68 Xeon Phi 7250	0	14,14	3,68	546,12
10 (8)	Cori (Cray)	NERSC	USA	9152 × 68 Xeon Phi 7250	0	14,01	3,56	355,44