Supercomputer: Rechen-Beschleuniger effizienter als IBMs BlueGene

Jahrelang hatten die BlueGene-Superrechner von IBM mit abertausenden Embedded-Prozessoren die Effizienz-Rangliste Green500 angeführt, nun übernehmen Intels Xeon Phi, AMD FirePro und Nvidia Tesla.

In Pocket speichern vorlesen Druckansicht 26 Kommentare lesen
Lesezeit: 4 Min.

Seit einigen Jahren bewertet die Green500-Liste die Energieeffizienz von Supercomputern, von denen die meisten auch auf der Top500-Liste der absolut schnellsten Systeme stehen. Die BlueGene-Rechner von IBM, die mit tausenden von PowerPC-Kernen bestückt sind, belegten seit 2006 meistens die vorderen Plätze der Green500-Liste. Nun übernimmt der Beacon der Uni Tennessee mit Intels Xeon Phi: Er liefert im Linpack knapp 2,5 GFlops pro Watt (2499,4 MFlops/W) bei einer absoluten Leistungsaufnahme von 44,89 Kilowatt (kW). Mit 110,5 TFlops Linpack-Rechenleistung (Rmax) – 70 Prozent seiner theoretischen Rechenleistung Rpeak von 157,5 TFlops – schafft er in der aktuellen Top500-Liste aber lediglich Platz 253.

Auf dem zweiten Platz der Green500-Liste steht mit 2,351 GFlops/W der Cluster Sanam aus dem saudi-arabischen Riad: Hier konnte AMD die ebenfalls nagelneuen FirePro-S10000-Karten unterbringen. Sanam belegt in der Top500 Platz 52. Der aktuelle Top500-Spitzenreiter Titan mit Nvidia Tesla K20X schafft den dritten Platz der Green500-Liste, auf dem vierten Platz steht mit Todi eine weitere Cray XK7 mit Tesla K20 und Opterons.

IBM muss sich aber wegen der Green500-Platzierungen nicht verstecken: Die Ränge 5 bis 29 sind allesamt von BlueGene/Q-Systemen belegt, erst auf Platz 30 kommt wieder ein Xeon Phi. Dahinter rangieren eng gestaffelt weitere Hybrid-Systeme mit Radeon-Grafikkarten, älteren Tesla-Karten oder eben Xeon Phi.

Erst ab Green500-Platz 40 kommen die ersten reinen x86-Cluster ohne Beschleuniger; der RSC Tornado SUSU an der Uni Süd-Ural – Top500-Platz 170 – bringt es trotz seiner LGA1366-Xeons der Westmere-Generation auf 0,995 GFlops/W. Dicht dahinter folgt ein IBM-iDataPlex-System am C-DAC mit der jüngsten Xeon-Generation E5-2600 (0,975 GFlops/W). Ein reines Opteron-System findet sich mit 0,582 GFlops/W erst auf Platz 131 – in dem SGI-/Rackable-Cluster des PSNC Poznan auf Platz 101 rechnen laut Excel-Version der Green500-Liste auch noch Tesla-Karten mit.

Außer den Hybrid-Systemen mit Xeons oder Opterons plus Beschleunigerkarten und den PowerPC-Vertretern gibt es noch einige Exoten: Der Oakleaf-FX mit SPARC64 IXfx schafft Platz 55 (0,886 GFlops/W), der chinesische Light mit ShenWei SW1600 (0,741 GFlops/W) Platz 104 und das effizienteste Power7-System erreicht mit 0,506 GFlops/W Platz 136.

Selbstverständlich bewertet die Green500-Liste genau wie die Top500 leider auch nur die Linpack-Performance – für diesen Benchmark optimieren die Hersteller von Compilern, Prozessoren und Coprozessoren ihre Produkte seit Jahren. Wie die Effizienz der jeweiligen Supercomputer bei anderen Problemstellungen aussieht, lässt sich aus den Green500-Angaben nur sehr grob abschätzen.

Die theoretische Effizienz einzelner Prozessoren oder Grafikkarten liegt deutlich höher als die mit dem Linpack erzielbaren Werte – der Code kann nicht das gesamte Potenzial der Rechenwerke nutzen, der Interconnect schluckt weitere Rechenleistung und der Wirkungsgrad der Spannungswandler spielt eine erhebliche Rolle. Zum Vergleich: Ein 95-Watt-Xeon wie der E5-2660 mit acht Kernen, AVX und 2,2 GHz Taktfrequenz liefert 140,8 GFlops bei Dual-Precision-Berechnungen, folglich 1,48 GFlops/W. Bei einem Opteron 6278 mit 16 Kernen, 2,4 GHz und 115 Watt sind es 153,6 GFlops und 1,34 GFlops/W. Die AMD FirePro 10000 mit 375 Watt liefert 1,48 DP-TFlops, also theoretisch 3,95 GFlops/W. Die Tesla K20X bringt es auf 5,57 GFlops/W: 1,31 TFlops aus 235 Watt. (ciw)