Supercomputer: China überholt die USA

Die HPC-Konferenz ISC startet gleich mit einem Knaller: China hat jetzt nicht nur die beiden schnellsten Supercomputer in der Top500-Liste, die Peta- und "Tera"-kotta-Armeen sind auch in Truppenstärke und in der Gesamtperformance überlegen.

In Pocket speichern vorlesen Druckansicht 233 Kommentare lesen
Supercomputer: China überholt die USA
Lesezeit: 8 Min.
Von
  • Andreas Stiller
Inhaltsverzeichnis

An der Spitze der zum Auftakt der ISC in Frankfurt veröffentlichten neuen Top500-Liste der Supercomputer kratzt ein neuer chinesischer Rechner an der 100-PFlops-Marke. Der Sunway Taihulight am National Supercomputing Center in Wuxi ist mit 93 PFlops im Linpack-Benchmark nicht nur dreimal schneller als der bisherige Spitzenreiter Tianhe 2 der Kollegen vom National Supercomputing Center in Guangzhou, er verbraucht mit 15,3 MW (netto ohne externe Kühlung) auch weniger als jener (17,8 MW) und setzt so mit über 6 GFlops/Watt neue Maßstäbe bezüglich Energieeffizienz.

Anders als beim Tianhe 2 hieven ihn auch keine amerikanischen Prozessoren und Rechenbeschleuniger nach oben, sondern ein in China entwickelter RISC-Prozessor von ShenWei, der SW26010 mit sage und schreibe 260 Kernen. Das sind 256 kleine Rechenkerne ohne Daten-Cache und 4 Management-Kerne.

Im ShenWei-Prozessor, so nimmt man an, lebt das Design des guten alten DEC-Alpha-Prozessors weiter. ShenWei hatte bereits im Jahre 2011 den 16-Kerner SW1060 herausgebracht, gefertigt im 65-nm-Prozess. Er sorgte dafür, dass das Sunway-BlueLight-MPP-System im November 2011 auf Platz 14 der Top500-Liste kam.

Nun folgt der 260-Kerner mit 1,45 GHz, hergestellt vermutlich im aktuellem 16-nm-Prozess von TSMC (Update: Jack Dongarra vermutet hingegen, dass die Prozessoren auch in Wuxi hergestellt werden). 40.960 solcher Prozessoren kommen im Sunway Taihulight zum Einsatz, den das National Research Center of Parallel Computer Engineering & Technology (NRCPC) mit ebenfalls selbstentwickeltem Interconnect designt hat. Das Design ist stark für rechenintensive Gleitkomma-Aufgaben optimiert, die Speicherperformance ist demgegenüber gering, zumal auch nur DDR3-Speicher zum Einsatz kommt.

Beim HPCG-Benchmark, so Linpack-Schöpfer Jack Dongarra, kommt der Rechner auch nur auf 0,3 Prozent der theoretischen Spitzenleistung, mithin auf etwa 350 TFlops. Mehr zum neuen chinesischen Rechner hat Dongarra in einem Report über den Sunway TaihuLight zusammengefasst.

Ganz überraschend ist das Ganze nicht, schon im letzten Jahr hat China angekündigt, im Verlauf von 2016 zwei 100-Pflops-Maschinen fertigzustellen. Der neue Fünfjahresplan hat zudem einen Tianhe-3 mit Performance bis hin zum Exaflops-Bereich bis 2020 fest eingeplant.

Mit nunmehr 167 Systemen und 211 PFlops in der Liste überholt erstmals China die USA (165 Systeme mit 173 PFlops) sowohl in Stückzahl als auch in Gesamtperformance. Vor einem halben Jahr hatte China noch 109 und die USA mit 201 fast doppelt so viele Systeme in der Liste.

So schlecht standen die USA noch nie da. Die Amerikaner müssen jetzt gegensteuern und haben auch schon eine entsprechende Planung in den Kongress eingebracht. Hier soll vor allem Intel mit dem neuen Xeon Phi Knights Landing (KNL) und später mit dem mutmaßlich etwa dreimal schnelleren Knights Hill helfen – sobald der 10-nm-Prozess läuft.

Der Neuling KNL taucht jetzt zum ersten Mal in der Top500-Liste auf und zwar in dem Testrechner Stampede-KNL im Texas Advanced Computing Center (TACC). Bestückt mit 484 selbstbootenden Xeon-Phi-7250-Prozessoren leistet er 818 TFlops und zieht auf Platz 116 in die Liste ein. Im nächsten Jahr soll der Stampede 2 am TACC dann 18 PFlops erreichen.

Intels HPC-Chef Raj Hazra hält am Eröffnungstag der ISC zur amerikanischen Morgenzeit um 18:00 MEZ seine Keynote – da steht dann wohl endlich der offizielle Stapellauf des Prozessors an.

Bei der Top10 der Liste ist ansonsten fast alles beim alten. Hier findet man, um einen Platz versetzt, die gleichen Systeme wie im November 2015. Also auf Platz 2 Tianhe 2 (31,2 PFlops), auf Platz 3 das Cray-XK7-System Titan im Oak Ridge National Laboratory und so weiter (siehe Tabelle).

Schnellster Europäer ist weiterhin Piz Daint des schweizerischen Supercomputing Zentrums in Lugano, mit 6,3 PFlops auf Platz 8, schnellster Deutscher der auf Cray XC40 beruhende Hazel Hen des HLR Stuttgart mit 5,7 PFlops auf Platz 9.

Während die Cray XC30 der Schweizer die Rechenpower vornehmlich mit Hilfe von Nvidia-Tesla-K20x-GPUs erzielen – sie haben bereits 4400 neue Tesla-P100-PCIe-Karten bestellt mit einer theoretischen Rechenleistung von über 20 PFlops –, setzen die Stuttgarter auf reine Prozessor-Power.

Hinter den Chinesen und den Amerikanern folgt mit weitem Abstand auf Platz 3 Japan (29/39 PFlops) vor Deutschland (26/31 PFlops), Frankreich (18/ 22 PFlops) und Großbritannien (12/20 PFlops). Japan hat von 36 auf 29 Systeme verloren. Europa als Ganzes hat sich insgesamt verglichen mit der Liste vom November 2015 gut gehalten, mit 105 sind es zwei Supercomputer weniger als zuvor. Vor einem Jahr waren es allerdings noch 141.

Die Top 10 der Supercomputer Juni 2016 (10 Bilder)

Platz 1

Der neue Spitzenreiter Sunway Taihulight
(Bild: Fu H H, Liao J F, Yang J Z, et al.)

Sechs neue Systeme kamen in Deutschland hinzu:

  • NextScale-Rechner von Lenovo am KIT (Platz 125),
  • NEMO-Cluster von Dalco an der Uni Freiburg (Platz 214),
  • NEC-Cluster an der Uni Duisburg-Essen (Platz 279),
  • Cray CS400 am Alfred-Wegener-Institut(Platz 361),
  • BiAC-Cluster von Megware an der Uni Tübingen(Platz 412),
  • Minerva von Clustervision mit Gigabyte am Albert-Einstein-Institut (Platz 462).

Letzerer Rechner von Clustervision soll mit seinen über 300 TFlops an Gravitationwellen mitrechnen. Er gehört ebenso wie der NEMO-Cluster von Dalco und die Cray CS400 zu den ersten, die auf Intels Omni-Path als Interconnect setzen.

Intel dominiert ansonsten bei den Prozessoren mit inzwischen über 90 Prozent der Systeme. 21 Rechner sind bereits mit Intels neuem Broadwell-EP bestückt. 13 AMD-Opteron-Rechner halten sich noch, daneben 19 mit IBM BlueGene, 4 mit IBM Power7 und 7 mit SPARC64. Bis auf die SPARCs sind die aber alle schon reichlich betagt.

Bei den Herstellern führt stückzahlmäßig Hewlett Packard Enterprise (HPE 127, zuvor 156) vor Lenovo samt Lenovo/IBM und IBM/Lenovo (92 zuvor 40) und Cray (60 zuvor 69). Man sieht, dass der chinesische Hersteller Lenovo im HPC-Bereich mächtig aufgerüstet hat. 79 der von Lenovo gelieferten Maschinen stehen in China, der Hersteller hat also einen großen Anteil an der mengenmäßigen chinesischen Dominanz, neben Sugon, Inspur und Huawei.

Lenovo hat auch neun Systeme mit dicken Knoten dabei, bestückt mit Xeon E7 in Vier- und Acht-Sockel-Systemen. Früher waren die vergleichweise teuren E7-Systeme so gut wie gar nicht in der Top500-Liste zu finden.

In der installierten Performance dominiert jedoch weiterhin Cray mit 20 Prozent der Gesamtperformance vor dem chinesischen Spitzenreiter, der allein 16,4 Prozent ausmacht, und HPE (12,9 Prozent).

So gut wie alle Systeme fahren Linux, drei Power-7-Systeme verwenden AIX.

Nach vielen Jahren mit mäßigem Wachstum legte diesmal – dank der fast 100 PFlops des neuen Spitzenreiters – die Gesamtperformance der Liste um kräftige 34,7 Prozent auf 566,7 PFlops zu. Noch mehr, um 38 Prozent auf 286 TFlops, stieg die Mindestperformance, die man brauchte, um überhaupt auf die Liste zu kommen.

Eine weitere Besonderheit diesmal ist, dass es mit jetzt 93 weniger Systeme mit GPUs oder Rechenbeschleunigern in der Liste gibt als zuvor, da waren es noch 104. Ist das ein Trend zurück to the Roots beziehungsweise to the Hosts, den SW26010 und Xeon Phi KNL dann noch kräftig anheizen? Oder nur eine kleine Pause und Nvidias Tesla P100 kann bald schon wieder das Rad herumreißen? Zumindest bekommt Nvidia mit dem Xeon Phi 7200 ernstzunehmende Konkurrenz, was sich aus Sicht der Rechenzentrumsbetreiber positiv auf die Preisgestaltung auswirken dürfte.

Die Top10 der 47. Top500-Liste der Supercomputer
Platz (vor. Liste) Rechner (Hersteller) Betreiber Land CPU-Cores GPU-Cores Rmax (TFlops) Leistungs-Aufn. [MW]
1 (-) Sunway Taihulight
(NRCPC)
National Supercomputing Center Wuxi China 40.960*260 ShenWei 26010, 1,45 GHz 0 93.014 15,3
2 (1) Tianhe-2 (NUDT) National Supercomputing Center Guangzhou China 32.000*12 Xeon E5 2692v2, 2,2 GHz 48.000*57 Xeon Phi 33.862 17,8
3 (2) Titan (Cray) Oak Ridge National Lab USA 18.688*16 Opteron 6274, 2,2 GHz 18.688*14 Nvidia Tesla K20x 17.590 8,21
4 (3) Sequoia (IBM) Lawrence Livermore National Lab USA 98.304*16 Bluegene/Q 1,6 GHz 0 17.173 7,89
5 (4) K Computer (Fujitsu) RIKEN Advanced Institute for Computational Science (AICS) Japan 88.128* 8 SPARC64 VIIIfx, 2 GHz 0 10.510 12,7
6 (5) Mira (IBM) Argonne National Lab USA 49.152*16 Bluegene/Q 1,6 GHz 0 8587 3,95
7 (6) Trinity (Cray) DOE/NNSA/LANL/SNL USA 188.166*16 Xeon E5-2698v3, 2,3 GHz 0 8101 k.A.
8 (7) Piz Daint (Cray) Centro Svizzero di Calcolo Scientifico (CSCS) Schweiz 5276*8 Xeon E5-2670, 2,6 GHz 5276*14 Nvidia K20x 6271 2,33
9 (8) Hazel Hen HLR Stuttgart Deutschland 15.424*12 Xeon E5-2680v3, 2,5 GHz 0 5640 k.A.
10 (9) Shaheen II (Cray) King Abdullah University of Science and Technology Saudi Arabien 12.288*16 Xeon E5-2698v3 2,3 GHz 0 5537 2,83

(as)