Top500 der Supercomputer: Neues vor allem von AMD und ARM

AMD Epyc 7002 "Rome" und insbesondere Fujitsus A64FX glänzen mit hoher Energieeffizienz.

31

Fujitsus Fugaku, soll erst 2021 kommen, aber der erste Prototyp wirft seine Schatten voraus

(Bild: Fujitsu)

18.11.2019, 15:02 Uhr

Lesezeit: 8 Min.

Von

Andreas Stiller

Die zu Beginn der Supercomputer 2019 in Denver veröffentlichte neue 54. Top500-Liste der Supercomputer zeigt vor allem auf, dass sich auf dem Gebiet der Supercomputer derzeit fast nichts tut, insbesondere nicht bei den Spitzensystemen. Doch versteckt findet man in dieser Liste einige Highlights. Dazu gehört insbesondere Fujitsus Prototyp-System des geplanten Fugaku (alias Post-K) mit dem ARM-Prozessor A64FX mit seiner skalierbaren Vektoreinheit SVE. Der Prototyp belegt mit 2 PFlops zwar nur Platz 159, setzt aber mit 16,9 GFlops/Watt neue Maßstäbe bei der Energieeffizienz ohne Zusatzbeschleuniger und ist damit neuer Spitzenreiter in der Green500-Liste.

Ein damit bestückter Exascale-Rechner würde "nur" noch 60 Megawatt verbrauchen – also etwas weniger als das ältere NSA-Rechenzentrum in Bluffdale/Utah heute schon –, die Betreiber solcher speziellen Rechner melden natürlich ebensowenig wie Google und Co. irgendwelche Rechnerdetails oder Linpack-Werte.

Man erwartet zudem auf der SC19 weitere Ankündigungen zur Kollaboration von HPE/Cray mit Fujitsu und auch Nvidia will spektakuläre Neuigkeiten zu ARM-Supercomputern berichten.

Ganz so effizient wie Fujitsus Neuling sind die beiden ebenfalls neu in die Liste eingezogenen französischen Rechner von Bull/Atos mit AMD Eypc 7002 "Rome" zwar nicht, aber der kleinere Spartan (mit 1,2 PFlops auf Platz 433) kann mit 5,78 GFlops/W immerhin nahezu alle unbeschleunigten Intel-Systeme abhängen, obwohl er AVX512 nicht beherrscht. Nur ein einziges System mit Intels Xeon Gold liegt ganz knapp voraus, das die chinesische Akademie der Wissenschaften auf 5,84 GFlops/W tunen konnte. Ansonsten dominieren bei der Energieeffizienz zwischen A64FX und Epyc-Rome die Systeme mit Beschleunigern, fast alle mit NVidia-GPUs bestückt.

Ruhe in der Upper Class

In der Upper Class der oberen 25 hat sich fast nichts verändert, außer dass zwei Uralt-Systeme wegen Altersschwäche abgeschaltet wurden: der noch mit Opteron bestückte Titan am Oak Ridge National Lab aus dem Jahre 2012 und der K-Computer in Tokio von 2011. Beide hatten zu ihrer Zeit auch teilweise länger die Spitzenposition inne.

Der erste Neuling im vorderen Bereich ist der AiMOS vom Rensselaer Polytechnic Institute Center for Computational Innovations (CCI) mit IBM Power9, der mit 8 Pflops Platz 24 belegt.

Die Rangfolge der Top10 bleibt unverändert mit den beiden IBM-Power9-Systemen Sierra (149 PFlops) und Summit (85 PFlops) an der Spitze vor dem schon etwas betagten chinesischen Sunway Taihu Light (93 PFlops). Weiter unten gab es schon mehr Änderungen, insgesamt sind rund 102 neue Systeme eingezogen. Die haben die Einstiegsperformance aber nur wenig auf 1,05 PFlops gesteigert.

Der Schweinezyklus bei den Supercomputern. Der Performacezuwachs wird danach bald wieder deutlich steigen, aber so niedrig wie jetzt war er noch nie.

(Bild: Andreas Stiller)

Und lagen früher die Wachstumsraten gemessen an der Gesamtleistung aller in der Liste verzeichneten System in jedem Halbjahr so im Schnitt bei 30 Prozent, liegt die Steigerung aktuell mit äußerst bescheidenen 5,5 Prozent auf dem absoluten Tiefpunkt seit Bestehen der nunmehr 54 mal aktualisierten Liste.

China mit den meisten Systemen, USA mit den schnellsten

Es halten sich aber die Gerüchte, dass sich China mit Ergebnissen der schon wesentlich weiterentwickelten Prototypsysteme der drei vom Staat unterstützen Exascale-Linien (PreE) zurückhält, um die Verhandlungen über die chinesisch-amerikanischen Handelsbeziehungen nicht zu stören. Zu viele Meldungen über chinesische Dominanz könnten kontraproduktiv sein. Aber es reicht ja auch so, jedenfalls rein stückzahlmäßig. Da hat China weiterhin rund doppelt so viele Systeme (228 zuvor 219) in der Liste wie die USA (117 zuvor 116), hauptsächlich anonyme Industriesysteme von Sugon, Inspur und Huawei.

Doch dank der beiden alten und neuen Spitzenreiter Summit und Sierra mit zusammengerechnet 250 PFlops halten die USA noch mit insgesamt 611 PFlops die Spitze der installierten Linpack-Performance vor China mit 532 PFlops. Dahinter kommt lange Zeit nichts, dann Japan mit 29 Systemen (zuvor auch 29) mit jetzt 109 PFlops. Frankreich (18 zuvor 19, 69 Pflops), und Deutschland (16 zuvor 14, 67 Pflops) liefern sich ein Kopf-an-Kopf-Rennen.

Stückzahlmäßig haben sich in den letzten Jahren Liste um Liste zwei kleinere europäische Länder gut nach vorne entwickelt. Die Niederlande, die vor nicht allzu langer Zeit auch mal gar kein System in der Liste hatten, trumpft mit 15 (zuvor 13) auf, und Irland mit 14 (zuvor 13). Dann erst folgt Großbritannien mit nur noch 11 (von zuvor 18) – das Land hat derzeit wohl andere Probleme, als sich um Wissenschaft und Supercomputer zu kümmern. Immerhin sind die 11 vorhandenen mit 32 PFlops etwas kräftiger als die der kleineren europäischen Nachbarn.

Der leistungsfähigste Europäer steht weiterhin in Lugano: der schweizerische Piz Daint (Cray XC50) mit 21,2 PFlops auf Platz 6. Der für Ende 2019 erwartete Hawk mit AMD Rome am HLR in Stuttgart hat es noch nicht in die Liste geschafft – das HPE-Apollo-9000-System dürfte etwa im Frühjahr 2020 einsatzbereit sein. Mit rund 27 PFlops theoretischer Rechenleistung wird er bezüglich Linpack den Piz Daint wohl nicht vom Sockel stürzen können – die Linpack-Effizienz des Rome ist nicht so berühmt, liegt derzeit maximal bei 67 Prozent.

Aber das andere Mitglied im Gauss Center in Jülich will bald mit dem Booster, bestückt mit der nächsten Nvidia-GPU-Generation, eingreifen und hat angekündigt, im nächsten Jahr mit etwa 70 PFlops theoretischer Leistung die Spitzenposition anzustreben – jedenfalls, falls die Schweizer oder die Franzosen oder ein anderer Europäer bis dahin nicht kontern.

Das Leibniz-Rechenzentrum wartet derweil ab, was Intel in der Aurora-Linie ab 2021 zu bieten hat. Zu seinen drei SuperMUC-Rechnern in der Liste muss man allerdings anmerken, dass der dort immer noch aufgeführte erste SuperMUC Phase 1 schon längst abgeschaltet und abgebaut ist. Hier ackern derweil der SuperMUC-Phase 2 (mit 2,8 PFlops auf Platz 86) und der SuperMUC-NG, der mit 19,5 PFlops auf Platz 9 liegt.

Lise und Emmy

Drei deutsche Rechner sind neu in die Liste eingezogen, insbesondere der nach Lise Meitner benannte, von Atos/Bull aufgebaute Rechner des Norddeutschen Verbunds für Hoch- und Höchstleistungsrechnen (HLRN) am Standort Berlin mit 5,4 PFlops (ohne Beschleuniger) auf Platz 40. Das etwa gleichstarke zweite Standbein des HLRN namens Emmy (von Emmy Noether) soll demnächst in Göttingen aufgebaut werden. Der Standort wurde ja von Hannover nach Göttingen verlegt, vorgeblich weil man sich wirtschaftliche Vorteile davon versprach. Aber so wirtschaftlich sieht es aktuell nicht gerade aus. Offenbar hat das mit dem vorgesehenen neuen Rechnergebäude nicht geklappt: "Zu diesem Zeitpunkt stehen – entgegen der ursprünglichen Planung – keine ausreichenden Flächen im Bestand zur Verfügung", heißt es in der von der EU vorgeschriebenen Ausschreibung, und so hat man eben für 1,8 Millionen Euro ein skalierbares, modulares Rechenzentrum in Containern bei Atos nachgeordert.

Hersteller-Ranking

Bei den Herstellern liegt Lenovo weiterhin mit 174 (zuvor 173) ganz klar vorne, darunter tummeln sich auf den Plätzen 249 bis 334 86 völlig identische, anonyme Industriesysteme C1040 mit 1,6 PFlops (Cloud Provider, Hosting Services, Software Companies) – keines davon in China, Lenovo ist weltweit aufgestellt. Dahinter folgt dank Zukaufs von Cray – der jetzt in trockenen Tüchern ist [ --] HPE mit zusammen 73 vor Sugon (71), Inspur (66) und Atos/Bull(23).

Intel als marktbeherrschender Prozessorhersteller muss einen marginalen Rückgang durch drei neue IBM-Power9-Systeme (jetzt 10 mit Power, dazu noch 4 alte Bluegenes) und die beiden neuen AMD-Systeme einstecken, "nur" noch 474 (zuvor 478) der 500 Rechner in der Top500 sind mit Intel-Prozessoren bestückt. Dominanter ist nur noch das Betriebssystem: die Spalte "OS-Family" können sich die Top500-Macher schenken – es gibt nur noch Linux.

Top 10 der 54. Top500-Liste der Supercomputer
Platz (vor. Liste)	Rechner (Hersteller)	Betreiber	Land	CPU-Cores	GPU-Cores	Linpack Rmax (PFlops)	Energie-effizienz (GFlops/W)	HPCG (TFlops)
1 (1) upgrade	Summit (IBM)	Oak Ridge National Lab	USA	9216 × 22 Power9, 3,07 GHz	27.648 × 80 Tesla V100	148,6	14,72	2925,75
2 (2)	Sierra (IBM)	Lawrence Livermore National Lab	USA	8640 × 22 Power9, 3,1 Ghz	17.280 × 80 Tesla V100	94,64	12,72	1795,67
3 (3)	Sunway TaihuLight (NRCPC)	National Supercomputing Center in Wuxi	China	40.960 × 260 ShenWei 26010, 1,45 GHz	0	93,01	6,05	480,84
4 (4)	Tianhe-2A (NUDT)	National Supercomputing Center in Guangzhou	China	35.584 × 12 Xeon E5-2692v2, 2,2 GHz	35.584 × 128 Matrix 2000	61,44	3,33	k.A.
5(-)	Frontera (DellEMC)	Texas Advanced Computing Center (TACC)	USA	16016 x 28 Xeon Platinum 8280, 2,7 GHz	0	23,52	k.A.	k.A.
6 (5)	Piz Daint (Cray)	Centro Svizzero di Calculo Scientifico (CSCS)	Schweiz	5704 × 12 Xeon E5-2690v3, 2,6 GHz (+2862 × 18 Xeon E5-2695v4)	5704 × 56 Tesla P100	21,2	10,4	486,39
7 (6)	Trinity (Cray)	DOE/NNSA/LANL/SNL	USA	unbekannte Anzahl Xeon E5 + Xeon Phi 7250. 979.072 Kerne insgesamt	0	20,2	2,66	546,12
8 (7)	ABCI	AIST	Japan	2176 × 20 Xeon Gold 6148, 2,4 Ghz	4352 × 80 Tesla V100	19,88	12,05	k.A.
9 (8)	SuperMUC-NG	Leibniz-Rechenzentrum	Deutschland	12.744 x 24 Xeon Platinum 8174	0	19,48	k.A.	207,84
10 (11) upgrade	Lassen (IBM)	Lawrence Livermore National Lab	USA	1584 x 22 IBM Power9	3168 x 80 Tesla V100	18,20	13,07	k.A.