Top500 der Supercomputer: Neues vor allem von AMD und ARM
AMD Epyc 7002 "Rome" und insbesondere Fujitsus A64FX glänzen mit hoher Energieeffizienz.
Die zu Beginn der Supercomputer 2019 in Denver veröffentlichte neue 54. Top500-Liste der Supercomputer zeigt vor allem auf, dass sich auf dem Gebiet der Supercomputer derzeit fast nichts tut, insbesondere nicht bei den Spitzensystemen. Doch versteckt findet man in dieser Liste einige Highlights. Dazu gehört insbesondere Fujitsus Prototyp-System des geplanten Fugaku (alias Post-K) mit dem ARM-Prozessor A64FX mit seiner skalierbaren Vektoreinheit SVE. Der Prototyp belegt mit 2 PFlops zwar nur Platz 159, setzt aber mit 16,9 GFlops/Watt neue Maßstäbe bei der Energieeffizienz ohne Zusatzbeschleuniger und ist damit neuer Spitzenreiter in der Green500-Liste.
Ein damit bestückter Exascale-Rechner würde "nur" noch 60 Megawatt verbrauchen – also etwas weniger als das ältere NSA-Rechenzentrum in Bluffdale/Utah heute schon –, die Betreiber solcher speziellen Rechner melden natürlich ebensowenig wie Google und Co. irgendwelche Rechnerdetails oder Linpack-Werte.
Man erwartet zudem auf der SC19 weitere Ankündigungen zur Kollaboration von HPE/Cray mit Fujitsu und auch Nvidia will spektakuläre Neuigkeiten zu ARM-Supercomputern berichten.
Ganz so effizient wie Fujitsus Neuling sind die beiden ebenfalls neu in die Liste eingezogenen französischen Rechner von Bull/Atos mit AMD Eypc 7002 "Rome" zwar nicht, aber der kleinere Spartan (mit 1,2 PFlops auf Platz 433) kann mit 5,78 GFlops/W immerhin nahezu alle unbeschleunigten Intel-Systeme abhängen, obwohl er AVX512 nicht beherrscht. Nur ein einziges System mit Intels Xeon Gold liegt ganz knapp voraus, das die chinesische Akademie der Wissenschaften auf 5,84 GFlops/W tunen konnte. Ansonsten dominieren bei der Energieeffizienz zwischen A64FX und Epyc-Rome die Systeme mit Beschleunigern, fast alle mit NVidia-GPUs bestückt.
Ruhe in der Upper Class
In der Upper Class der oberen 25 hat sich fast nichts verändert, außer dass zwei Uralt-Systeme wegen Altersschwäche abgeschaltet wurden: der noch mit Opteron bestückte Titan am Oak Ridge National Lab aus dem Jahre 2012 und der K-Computer in Tokio von 2011. Beide hatten zu ihrer Zeit auch teilweise länger die Spitzenposition inne.
Der erste Neuling im vorderen Bereich ist der AiMOS vom Rensselaer Polytechnic Institute Center for Computational Innovations (CCI) mit IBM Power9, der mit 8 Pflops Platz 24 belegt.
Die Rangfolge der Top10 bleibt unverändert mit den beiden IBM-Power9-Systemen Sierra (149 PFlops) und Summit (85 PFlops) an der Spitze vor dem schon etwas betagten chinesischen Sunway Taihu Light (93 PFlops). Weiter unten gab es schon mehr Änderungen, insgesamt sind rund 102 neue Systeme eingezogen. Die haben die Einstiegsperformance aber nur wenig auf 1,05 PFlops gesteigert.
Und lagen früher die Wachstumsraten gemessen an der Gesamtleistung aller in der Liste verzeichneten System in jedem Halbjahr so im Schnitt bei 30 Prozent, liegt die Steigerung aktuell mit äußerst bescheidenen 5,5 Prozent auf dem absoluten Tiefpunkt seit Bestehen der nunmehr 54 mal aktualisierten Liste.
China mit den meisten Systemen, USA mit den schnellsten
Es halten sich aber die Gerüchte, dass sich China mit Ergebnissen der schon wesentlich weiterentwickelten Prototypsysteme der drei vom Staat unterstützen Exascale-Linien (PreE) zurückhält, um die Verhandlungen über die chinesisch-amerikanischen Handelsbeziehungen nicht zu stören. Zu viele Meldungen über chinesische Dominanz könnten kontraproduktiv sein. Aber es reicht ja auch so, jedenfalls rein stückzahlmäßig. Da hat China weiterhin rund doppelt so viele Systeme (228 zuvor 219) in der Liste wie die USA (117 zuvor 116), hauptsächlich anonyme Industriesysteme von Sugon, Inspur und Huawei.
Doch dank der beiden alten und neuen Spitzenreiter Summit und Sierra mit zusammengerechnet 250 PFlops halten die USA noch mit insgesamt 611 PFlops die Spitze der installierten Linpack-Performance vor China mit 532 PFlops. Dahinter kommt lange Zeit nichts, dann Japan mit 29 Systemen (zuvor auch 29) mit jetzt 109 PFlops. Frankreich (18 zuvor 19, 69 Pflops), und Deutschland (16 zuvor 14, 67 Pflops) liefern sich ein Kopf-an-Kopf-Rennen.
Stückzahlmäßig haben sich in den letzten Jahren Liste um Liste zwei kleinere europäische Länder gut nach vorne entwickelt. Die Niederlande, die vor nicht allzu langer Zeit auch mal gar kein System in der Liste hatten, trumpft mit 15 (zuvor 13) auf, und Irland mit 14 (zuvor 13). Dann erst folgt Großbritannien mit nur noch 11 (von zuvor 18) – das Land hat derzeit wohl andere Probleme, als sich um Wissenschaft und Supercomputer zu kümmern. Immerhin sind die 11 vorhandenen mit 32 PFlops etwas kräftiger als die der kleineren europäischen Nachbarn.
Der leistungsfähigste Europäer steht weiterhin in Lugano: der schweizerische Piz Daint (Cray XC50) mit 21,2 PFlops auf Platz 6. Der für Ende 2019 erwartete Hawk mit AMD Rome am HLR in Stuttgart hat es noch nicht in die Liste geschafft – das HPE-Apollo-9000-System dürfte etwa im Frühjahr 2020 einsatzbereit sein. Mit rund 27 PFlops theoretischer Rechenleistung wird er bezüglich Linpack den Piz Daint wohl nicht vom Sockel stürzen können – die Linpack-Effizienz des Rome ist nicht so berühmt, liegt derzeit maximal bei 67 Prozent.
Aber das andere Mitglied im Gauss Center in Jülich will bald mit dem Booster, bestückt mit der nächsten Nvidia-GPU-Generation, eingreifen und hat angekündigt, im nächsten Jahr mit etwa 70 PFlops theoretischer Leistung die Spitzenposition anzustreben – jedenfalls, falls die Schweizer oder die Franzosen oder ein anderer Europäer bis dahin nicht kontern.
Das Leibniz-Rechenzentrum wartet derweil ab, was Intel in der Aurora-Linie ab 2021 zu bieten hat. Zu seinen drei SuperMUC-Rechnern in der Liste muss man allerdings anmerken, dass der dort immer noch aufgeführte erste SuperMUC Phase 1 schon längst abgeschaltet und abgebaut ist. Hier ackern derweil der SuperMUC-Phase 2 (mit 2,8 PFlops auf Platz 86) und der SuperMUC-NG, der mit 19,5 PFlops auf Platz 9 liegt.
Lise und Emmy
Drei deutsche Rechner sind neu in die Liste eingezogen, insbesondere der nach Lise Meitner benannte, von Atos/Bull aufgebaute Rechner des Norddeutschen Verbunds für Hoch- und Höchstleistungsrechnen (HLRN) am Standort Berlin mit 5,4 PFlops (ohne Beschleuniger) auf Platz 40. Das etwa gleichstarke zweite Standbein des HLRN namens Emmy (von Emmy Noether) soll demnächst in Göttingen aufgebaut werden. Der Standort wurde ja von Hannover nach Göttingen verlegt, vorgeblich weil man sich wirtschaftliche Vorteile davon versprach. Aber so wirtschaftlich sieht es aktuell nicht gerade aus. Offenbar hat das mit dem vorgesehenen neuen Rechnergebäude nicht geklappt: "Zu diesem Zeitpunkt stehen – entgegen der ursprünglichen Planung – keine ausreichenden Flächen im Bestand zur Verfügung", heißt es in der von der EU vorgeschriebenen Ausschreibung, und so hat man eben für 1,8 Millionen Euro ein skalierbares, modulares Rechenzentrum in Containern bei Atos nachgeordert.
Hersteller-Ranking
Bei den Herstellern liegt Lenovo weiterhin mit 174 (zuvor 173) ganz klar vorne, darunter tummeln sich auf den Plätzen 249 bis 334 86 völlig identische, anonyme Industriesysteme C1040 mit 1,6 PFlops (Cloud Provider, Hosting Services, Software Companies) – keines davon in China, Lenovo ist weltweit aufgestellt. Dahinter folgt dank Zukaufs von Cray – der jetzt in trockenen Tüchern ist [ --] HPE mit zusammen 73 vor Sugon (71), Inspur (66) und Atos/Bull(23).
Intel als marktbeherrschender Prozessorhersteller muss einen marginalen Rückgang durch drei neue IBM-Power9-Systeme (jetzt 10 mit Power, dazu noch 4 alte Bluegenes) und die beiden neuen AMD-Systeme einstecken, "nur" noch 474 (zuvor 478) der 500 Rechner in der Top500 sind mit Intel-Prozessoren bestückt. Dominanter ist nur noch das Betriebssystem: die Spalte "OS-Family" können sich die Top500-Macher schenken – es gibt nur noch Linux.
Top 10 der 54. Top500-Liste der Supercomputer | ||||||||
Platz (vor. Liste) | Rechner (Hersteller) | Betreiber | Land | CPU-Cores | GPU-Cores | Linpack Rmax (PFlops) | Energie-effizienz (GFlops/W) | HPCG (TFlops) |
1 (1) upgrade | Summit (IBM) | Oak Ridge National Lab | USA | 9216 Ă— 22 Power9, 3,07 GHz | 27.648 Ă— 80 Tesla V100 | 148,6 | 14,72 | 2925,75 |
2 (2) | Sierra (IBM) | Lawrence Livermore National Lab | USA | 8640 Ă— 22 Power9, 3,1 Ghz | 17.280 Ă— 80 Tesla V100 | 94,64 | 12,72 | 1795,67 |
3 (3) | Sunway TaihuLight (NRCPC) | National Supercomputing Center in Wuxi | China | 40.960 Ă— 260 ShenWei 26010, 1,45 GHz | 0 | 93,01 | 6,05 | 480,84 |
4 (4) | Tianhe-2A (NUDT) | National Supercomputing Center in Guangzhou | China | 35.584 Ă— 12 Xeon E5-2692v2, 2,2 GHz | 35.584 Ă— 128 Matrix 2000 | 61,44 | 3,33 | k.A. |
5(-) | Frontera (DellEMC) | Texas Advanced Computing Center (TACC) | USA | 16016 x 28 Xeon Platinum 8280, 2,7 GHz | 0 | 23,52 | k.A. | k.A. |
6 (5) | Piz Daint (Cray) | Centro Svizzero di Calculo Scientifico (CSCS) | Schweiz | 5704 Ă— 12 Xeon E5-2690v3, 2,6 GHz (+2862 Ă— 18 Xeon E5-2695v4) | 5704 Ă— 56 Tesla P100 | 21,2 | 10,4 | 486,39 |
7 (6) | Trinity (Cray) | DOE/NNSA/LANL/SNL | USA | unbekannte Anzahl Xeon E5 + Xeon Phi 7250. 979.072 Kerne insgesamt | 0 | 20,2 | 2,66 | 546,12 |
8 (7) | ABCI | AIST | Japan | 2176 Ă— 20 Xeon Gold 6148, 2,4 Ghz | 4352 Ă— 80 Tesla V100 | 19,88 | 12,05 | k.A. |
9 (8) | SuperMUC-NG | Leibniz-Rechenzentrum | Deutschland | 12.744 x 24 Xeon Platinum 8174 | 0 | 19,48 | k.A. | 207,84 |
10 (11) upgrade | Lassen (IBM) | Lawrence Livermore National Lab | USA | 1584 x 22 IBM Power9 | 3168 x 80 Tesla V100 | 18,20 | 13,07 | k.A. |
(as)