SC12: Mit Nvidia-GPUs an die Spitze der Supercomputer [update]

Dank seiner 18.866 Nvidia K20x-Karten erreichte der Supercomputer Titan am Oka Ridge National Laboratory mit 17,6 PFlops den Spitzenplatz in der Top500-Liste der Supercomputer

In Pocket speichern vorlesen Druckansicht 50 Kommentare lesen
Lesezeit: 6 Min.
Von
  • Andreas Stiller

Er hats geschafft: Titan ist mit über 17 PFlops dank 18.688 Nvidia-K20x-Karten der schnellste der (gemeldeten) Supercomputer in der Top500-Liste

(Bild: Oak Ridge National Laboratory)

Nivida und Cray haben es geschafft: Der neue für die offene Wissenschaft vorgesehene Supercomputer Titan am Oak Ridge National Laboratory erreichte mit seinen 18.688 Tesla-K20X-GPUs und ebenso vielen Opteron-6274-Prozessoren 17,59 PFlops. Das sind 1,3 PFlops mehr als der bislang führende Sequoia am Lawrence Livermore National Laboratory mit IBM-BlueGene/Q-Prozessoren.

Auf Platz drei der nunmehr zum 40. Mal herausgegebenen Top500-Liste der Supercomputer folgt Japans K Computer mit SPARC64 VIIIfx, der vor eineinhalb Jahren als erster die 10 PFlops-Marke geknackt hatte. Platz vier belegt mit Mira des Argonne National Labs ein "halber" Sequioa mit auch genau der halben Rechenleistung, also 8,16 PFlops. Dahinter folgt mit JuQUEEN ein Viertel Sequoia, der am Rechenzentrum des Forschungszentrums Jülich den alten JuGene ersetzt hat.

Mit 4,14 PFlops ist Jülich damit im innerdeutschen Wettbewerb jetzt vor dem SuperMUC mit Xeon-E5-Prozessoren am Leibnizrechenzentrum in München-Garching. Diese sind damit auch die beiden schnellsten Rechner in Europa. Platz 7 nimmt der neu in Betrieb gegangene Stampede am Texas Advanced Computing Center ein, ebenfalls mit Xeon E5 bestückt, aber mit Intel-Xeon-Phi-Prozessoren beschleunigt. Bislang sind dort nur 1875 Xeon-Phi-Karten der etwa 7000 geplanten eingebaut und so kommt der Stampede hauptsächlich dank seiner 11.550 Xeon-E5-Prozessoren auf 2,66 PFlops.

Titan wäre mit seinen K20x-GPUs auch der energieeffizienteste Rechner, gäbe es da nicht einen kleinen Kollegen namens Todi vom Schweizer Supercomputing Centre (CSCS), ebenfalls mit Cray XK7 und NVidia K20x. Mit 2243 MFlops/Watt ist Todi etwas effizienter als Titan mit 2143 MFlops/Watt. Die X-Version der Nvidia-K20-Karte fährt einen höheren Takt und kommt damit auf eine höhere Rechenleistung als die normale K20-Karte – mehr dazu wird Nvidia im Verlaufe des Tages bekannt geben.

Hinter Titan folgen die insgesamt 25 BlueGene/Q-Systeme mit rund 2100 MFlops/Watt bevor der erste von insgesamt sechs in der Liste platzierten Systemen mit Xeon E5 und Xeon Phi auftaucht: Der IBM-Dataplex-Rechner Discover der NASA liegt hier weit mit 1935 Mflops/Watt in Front; die andern durch Xeon-Phi beschleunigten Rechner folgen ein gutes Stück dahinter.

Update: In letzter Sekunde konnte Intel noch ein siebtes Xeon-Phi-beschleunigtes System in der Liste platzieren, das zuvor noch nicht in der vorläufigen Liste enthalten war. Der Beacon am NISC an der Universität von Tennesse erreichte, bestückt mit 144 Xeon-Phi-Karten und 576 Xeon E5-2670 den Rekordwert von 2449,57 MFlops/Watt.

An der geografischen Verteilung der Supercomputer hat sich kaum etwas geändert: In den USA steht weiterhin die Hälfte aller installierter Systeme (251 zuvor 252), Asien hat 123 (122) und Europa 105 (106). In Europa liegen die großen drei (Großbritannien, Frankreich und Deutschland) fast gleichauf mit 24, 21 und 20 Systemen, wobei Deutschland mit 10,4 PFlops aber weitaus mehr Rechenleistung zur Verfügung steht als Großbritannien (7,3 Pflops) und Frankreich (6,4 PFlops).

IBM konnte mit 193 Rechnern ein paar Systeme weniger in der Liste platzieren als vor einen halben Jahr (213); Konkurrent HP konnte wieder ein bisschen zulegen (147, zuvor 141), allerdings mit überwiegend kleineren Systemen. So kommt HP auf lediglich 11 Prozent der Gesamtrechenleistung. Cray ist stückzahlmäßig mit 30 (zuvor 27) Systemen die Nummer 3, liegt aber in der Gesamtrechenleistung dank Nvidia-Hilfe mit 17 Prozent klar vor HP.

Zu bemerken ist hierbei, dass Cray schon sechs neue Cascades-Systeme mit Xeon-E5-Prozessoren platziert hat. Einige davon, wie Piz Daint am CSCS. sind noch nicht voll aufgebaut und gehen nur mit einer Teilleistung in die Liste ein. Cray wird aber nicht nur durch die Cascades bald wesentlich stärker in der Liste vertreten sein: Die amerikanische Firma hat angekündigt, Appro International aufzukaufen, die mit 23 Systemen in der Top500-Liste den vierten Rang bei den Herstellen einnehmen. Ein wichtiger Petaflops-Rechner fehlt zudem in der Cray-Liste: Der Blue Waters an der University of llinois, Urbana. NCSA-Direktor Thomas Dunning bleibt bei seiner Linie – die sicherlich mit zu der Vertragsauflösung mit IBM beigetragen hat – keine Linpack-Werte einzureichen.

Ohnehin fehlen auch die großen kommerziellen Rechenzentren von Google, Amazon, Apple und Microsoft, die die Spitze der Top500-Liste komplett umkrempeln würden. Diese sind vor allem mit Intel-Prozessoren bestückt, aber auch so dominiert Intel klar mit 76 Prozent (380 Prozessoren, zuvor 373), wobei der Xeon 5600 (Westmere EP) noch mit 196 die Nase vor dem Xeon E5 (Sandy Bridge) hat. Itanium-Systeme sind nicht mehr dabei – das könnte sich nach dem kürzlich erfolgten Stapellauf des neuen Itanium 9500 (Poulson) vielleicht wieder ändern.

AMD hat mit 60 Rechnern ein System und IBM mit 53 Rechnern fünf Systeme weniger als in der vorigen Liste. Fujitsu konnte insgesamt 5 Systeme mit SPARC64-Prozessoren platzieren, darunter drei mit dem neuen SPARC64 IXfx. Der schnellste damit bestückte Supercomputer an der Universität Tokio erreichte mit knapp über ein PFlops Platz 21.

Insgesamt 22 Rechner knackten die 1-PFlops-Marke, die Gesamtleistung der Top500-Supercomputer stieg von 123,4 auf 162,1 PFlops an, was für den Supercomputerbereich nur ein mäßiges Plus von 31,4 Prozent bedeutet. Die Einstiegsleistung, um überhaupt in die Liste aufgenommen zu werden stieg von 61 auf 76,5 TFlops.

Die Top10 der 40. Top500-Liste der Supercomputer
Platz (vor. Liste) Rechner (Hersteller) Betreiber Land Prozessoren (Cores) Rmax (TFlops) Energie-Verbrauch [MW]
1 (6 upgr) Titan (Cray XT5) Oak Ridge National Lab USA 299.008 16C-Opteron, 2,2 GHz + 261.632*14 Nvidia Tesla K20x 17.590 8,21
2 (1) Sequoia (IBM) Lawrence Livermore National Lab USA 1.572.864 Bluegene/Q 1,6 GHz 16.325 7,89
3 (2) K Computer (Fujitsu) RIKEN Advanced Institute for Computational Science (AICS) Japan 705.024 8C-SPARC64 VIIIfx, 2 GHz 10.510 12,7
4 (3) Mira (IBM) Argonne National Lab USA 786.432 Bluegene/Q 1,6 GHz 8.162 3,95
5 (8 upgr) JuQUEEN (IBM) Forschungs-zentrum Jülich Deutschl. 393.216 Bluegene/Q 1,6 GHz 4.141 1,97
6 (4) SuperMUC (IBM) Leibniz-Rechenzentrum Deutschl. 147.456 8C-Xeon E5, 2,7 GHz 2.897 3,42
7 (-) Stampede (Dell) Texas Advanced Computing Center (TACC) USA 92.400 Xeon-E5, 2,7 GHz + 1875*60 Xeon Phi, 1,091 GHz 2.660 nicht gem.
8 (5) Tianhe-1A (NUDT) National SuperComputer Center Tianjin China 86.016 6C-Xeon 2,93GHz +7168*14 Nvidia Tesla M2050 2.566 4,04
9 (7) Fermi (IBM) CINECA Italien 163.840 Bluegene/Q 1,6 GHz 1.725 0,82
10 (23 upgr) DARPA Trial Subset (IBM) IBM Development Engineering USA 63.360 Power7 8C, 3,836 GHz 1.515 4,23

(as)