Tops und Flops
Rund 800 Supercomputer-Spezialisten aus aller Welt reisten diesmal nicht nach Heidelberg, sondern nach Dresden, um hier fernab der WM-Spielstätten Erfahrungen auszutauschen, Roadmaps anzuschauen, Geschäfte anzubandeln und vor allem auch, um anhand der neuesten Rangliste der Supercomputer die aktuellen Trends zu erfahren - etwa, dass IBM immer offensiver wird und Deutschland ins Abseits gerät.
- Andreas Stiller
Noch vor vier Jahren war Deutschland in der Supercomputerszene mit mehr als 60 Systemen die klare Nummer zwei hinter den USA - nun ist es mit lediglich noch 18 Systemen in der Top500-Liste die Nummer fünf, Tendenz weiter fallend. Die Briten haben inzwischen doppelt so viele Systeme in den Charts (auch wenn den Engländern das gegen die Portugiesen, die kein einziges Top500-System aufweisen können, nichts geholfen hat ...). Shooting Star ist China, das mit 28 Systemen vorbeimarschiert ist und das nur noch ganz knapp von Japan mit 29 überholt wird. Unangefochten rangieren natürlich ganz vorne die USA mit 299 Systemen. In installierter Rechenleistung können sich die deutschen Supercomputer allerdings noch etwas gegen den „Angriff aus Asien“ - so der Titel einer der Sessions - wehren, mit 97 TF/s (1 TF/s = 1 TeraFlops/s = 1 Billion Gleitkommaoperationen pro Sekunde) liegen sie zumindest noch knapp vor den Chinesen (94 TF/s ). Erheblich dazu beigetragen hat der BlueGene-Rechner des Forschungszentrums Jülich, das mit 37 TF/s erstmals wieder seit Herbst 2001 ein deutsches System unter die Top10 platzieren konnte.
In der Gesamtrechenleistung der mit 2790 TF/s gut bestückten Top500-Liste - das sind allerdings nur 21 Prozent mehr als vor einem halben Jahr - zeigten einmal mehr die Amerikaner mit 1779 TF/s, was eine Supercomputer-Harke ist, weit vor Japan mit 260 und Großbritannien mit 138 TF/s. Ganz vorne rangieren wie bereits im Herbst 2005 die beiden IBM BlueGene-Systeme am Lawrence Livermore National Laboratory (LLNL) und IBM Watson Research Center. Mit seinen 280 TF/s ist der für Atombombensimulation genutzte BlueGene des LLNL allein auf weiter Flur vor dem kleineren Kollegen mit 91 TF/s. Auch Platz drei hält IBM, mit einem Power5+-bestückten eServer namens ASC Purple, der gegenüber dem Herbst noch auf 76 TF/s beschleunigt wurde. Auf dem vierten Rang folgt mit dem NASA-Rechner Columbia der schnellste Itanium-Rechner von SGI vor dem Tera-10 im französischen Commissariat a l’Energie Atomique (CEA), das mit seinen 8704 Itanium-2- und Montecito-Prozessoren 43 TF/s erzielt. Auf Platz sechs konnte sich der Dell-Cluster Thunderbird der Sandia Labs mit seinen 9024 Xeon-Prozessoren mit 38,27 TF/s halten, einen Hauch vor dem frisch in der Liste aufgetauchten Opteron-Cluster TSUBAME des Tokyo Institute of Technology, der mit 10368 Opterons schon die ansonsten noch nirgends zu bekommenden Acht-Sockel-Boards von Sun einsetzen kann. Mit 38,18 TF/s liegt das System nur arg knapp hinter der Erzkonkurrenz - ja, hätten Sun und NEC da nicht noch ein paar Opteron-Kohlen auflegen können? Aber immerhin ist das Hauptziel erreicht, sich als schnellstes japanisches System erstmals vor den jahrzehntelang dominierenden heimischen Vektorrechnern zu platzieren. Außerdem sollen demnächst noch ClearSpeed-Beschleunigungskarten hinzu kommen, die weitere Teraflops ermöglichen. Und dann folgt auf Platz 8 der schon erwähnte Rechner JUBL in Jülich. Er ist der schnellste der BlueGene-Gattung außerhalb der USA - dennoch musste es sich im europäischen Contest den Itanium-Boliden der französischen Atomenergiebehörde geschlagen geben.
Linpacker
Böse Zungen behaupten allerdings, der von Bull aufgestellte Itanium-Rechner sei noch nie mit dieser Prozessorzahl gelaufen und der Linpack-Wert einfach hochgerechnet worden. Andererseits wird gegen die insgesamt 24 BlueGene-Systeme in der Top500-Liste ins Feld geführt, sie seien nur für Spezialanwendungen zu gebrauchen und eigens für den Linpack-Benchmark optimiert, wobei sie sogar die Kommunikationsprozessoren für Rechenzwecke „missbrauchten“. Es gab und gibt also immer genug Diskussions-Potenzial auch über den Sinn des allein über die Rangfolge entscheidenden Linpack-Benchmarks. Linpack-Schöpfer Jack Dongarra selbst stellte auf der Konferenz die Vorteile der HPC-Challenge-Benchmarksuite (HPCC) heraus. Selbige liefert aber gleich sieben Ergebnisse und daher nicht einen so schön handhabbaren Einzelwert für das Ranking wie der Linpack. Man werde wohl noch eine Zeitlang beim Linpack bleiben, so Dr. Erich Stohmaier vom Livermore National Berkeley Lab, einer der vier Top500-Herausgeber, zu c't. Geplant sei aber, die Datenbank um weitere Benchmarkergebnisse wie die vom HPCC zu erweitern. Die zu bekommen sei aber nicht so einfach, weil viele Rechner „classified“ seien, also unter militärischer Geheimhaltung stehen. Manche werden auch nur kurz für den Ablauf des Linpacks zusammengestöpselt, verriet HPC-Manager Dr. Frank Baetke von Hewlett-Packard. Die Hersteller überreden Firmen, ihre Blade-Server kurzzeitig zu größeren Clustern zusammenzukoppeln und erhalten so einen transienten Supercomputer, ausreichend für einen gültigen Eintrag in die Top500-Liste. Die Firmen selbst bleiben dabei anonym - sie tauchen ohne genaue Beschreibung nur als „Halbleiterfirma“ oder „Bank“ auf. So sind immerhin 47 Einträge unter „Semiconductor Company“ - fast ausnahmslos IBM-Bladecenter - zu finden oder 23 unter „Digital Media“ und 16 unter „Bank“, die letzten beiden Segmente überwiegend bestückt mit HP-Blade-Clustern.
Man sieht: der Trend zu Clustern und insbesondere zu Blade-Systemen hat weiter deutlich zugenommen. Mit 364 stellen die Cluster inzwischen drei Viertel aller Systeme, allein 205 davon sind mit dem Blade-Etikett verziert. Vor einem Jahr schafften es gerade mal 63 Blade-Systeme in die Top500. Größter Clusterlieferant und dominanter Top500-Hersteller ist einmal mehr IBM. Mit insgesamt 240 Systemen mit einer Rechenleistung von 1504 TF/s hat der IT-Spitzenreiter seine Position in dieser Liste gegenüber dem Vorjahr weiter kräftig ausgebaut. Nummer zwei sowohl im IT- als auch Top500-HPC-Bereich ist weiterhin Hewlett-Packard (157 Systeme, 495 TF/s) und auf Platz drei hat sich stückzahlmäßig inzwischen Dell (22 Systeme, 140 TF/s) vor Cray geschoben. Cray hat zwar nur 16 Systeme in der Liste, aber mit 156 TF/s die höhere Rechenleistung. HP verweist jedoch darauf, dass es sich mehr auf kleinere und mittlere Systeme im HPC-Segment konzentriert und so in dem Gesamt HPC-Markt weiterhin Spitzenreiter vor IBM ist.
Intels HPC-Direktor Stephen Wheat berichtete auf dem traditionellen „heißen Stuhl“ in der Konferenz, dass für den breiteren Markt die ersten 50 der Top500-Liste ohnehin keine Rolle spielten, da es sich dabei um sehr spezielle Prestige-Systeme von Regierungs- und Forschungseinrichtungen handele. Aber im Rest, so freute er sich, dominieren eben die Xeon-Cluster. Insgesamt hat aber Intel in der Liste gegenüber dem letzten Herbst sowohl bei den Xeons (265 gegenüber 287) als auch bei den Itanium-Systemen (37 statt 46) klar verloren, wohingegen sich der Opteron mit nunmehr 80 Systemen (nach 55 vor einem halben und nur 25 vor einem Jahr) kräftig im Aufwind befindet. Doch Intel droht jetzt lautstark mit Woodcrest und hat den ersten Cluster „Endeavor“ schon mal selbst als Systemhersteller in die Charts auf Platz 69 gebracht.
Ob dem vor zwei Jahren noch so erfolgreichen Itanium so langsam die Luft ausgeht - das wurde in der Lobby von Wissenschaftlern und Industrievertretern emsig diskutiert. Zwar durfte die angeschlagene Firma SGI, die derzeit unter „Chapter 1“ steht, als erster Systemhersteller schon vorab die offizielle Auslieferung der mit Itanium-Montecito-Prozessoren bestückten Altix-4700-Blades an das Leibniz-Rechenzentrum in München vermelden, zum Reorganisationsplan gehört nun aber auch die neue Altix-450-Linie: Woodcrest-bestückte Blades. Woodcrest kannibalisiere seinen älteren, großen Bruder - so war von vielen Seiten zu vernehmen. Hans Ulrich von Bülow, CAE-Experte von Audi, zeigte es an der IT-Roadmap seiner Firma symptomatisch auf: Itanium läuft hier langsam aber sicher aus, RISC ist schon weg und x86-32 wird zügig durch x86-64 ersetzt. Nur welches x86-64, ob von AMD oder von Intel - das wollte von Bülow nicht verraten.
Man sollte die Itanium-Flinte aber nicht vorzeitig ins Korn werfen, so Frank Baetke vom Itanium-Mitentwickler Hewlett-Packard. Auch wenn Montecito und der fürs nächste Jahr geplante Montvale in 65-nm-Technik vielleicht noch nicht der große Sprung sind - er verspricht sich viel von dem Tukwila, den die alte DEC-Entwicklermannschaft rund um Joel Emer in Massachusetts designt. Es wird sich vermutlich zunächst um einen Quad-Core handeln mit ausgefeiltem, feinkörnigen Simultaneous Multithreading (SMT), mit integriertem Speichercontroller für FB-DIMM und seriellen Links (CSI). Aber vor 2008 wird man ihn wohl kaum erwarten dürfen. Bis dahin, so Supercomputer-Fachmann Strohmaier, ist bereits mit den ersten PetaFlop-Systemen zu rechnen - in Amerika, Japan oder auch China. Wird es ein noch größerer BlueGene sein oder ein ultrahochgetaktetes Power6-System? Immerhin schätzt man dessen Prozessortakt auf über 5 GHz .
PetaFlop-Rennen
Oder wird der mit Quad-Opterons geplante Cray-Rechner als erster die prestigeträchtige Marke erreichen? Für 200 Millionen Dollar hat Cray den Auftrag dazu vom Oak Ridge National Laboratory in der Tasche. Und Cray will auch mit neuen Vektorrechnern (Codename Black Widow), mit massiv parallelen FPGA-Beschleunigerkarten (Eldorado) und mit schnelleren Opteron-Systemen (Hood und Baker) in allen Supercomputersegmenten mitmischen.
Gute Chancen für den Durchbruch der PetaFlop-Schallmauer hat aber auch IBMs Cell-Architektur. Noch ist die nötige doppelt genaue Gleitkommaleistung allerdings nicht überwältigend - wenn auch mit 14 GF/s durchaus beachtlich. Cell kann zwar in jedem der acht Synergistic Processing Elements wahlweise mit doppelter Genauigkeit rechnen, nur ist die dafür eingebaute FPU im Unterschied zur SP-SIMD-Einheit nicht pipelined und auch nur einmal vorhanden. Der Befehlssatz ist aber ähnlich wie bei SSE2 schon auf zweifach parallele DP-Operationen ausgelegt. Wissenschaftler am NERSC haben die Cell-Fähigkeiten für wissenschaftliche Aufgaben untersucht und kommen zu dem Schluss, dass eine verhältnismäßig kleine Änderung in der Hardware den DP-Durchsatz auf über 50 GF/s mehr als verdreifachen könnte. Sie nennen das Design Cell+. Interessanterweise hat IBM just unter diesem Namen auch eine neue Version in Arbeit, die vor allem mit einem vergrößerten lokalen Speicher aufwarten soll. Wie Gerd Kaufholz von IBM Böblingen mitteilte, ist auch ein Cell2 in 65-nm-Technik geplant, mit einer fully pipelined FPU mit doppelter Genauigkeit. Der könnte dann irgendwann im nächsten Jahr debütieren und vielleicht 100 GF/s und mehr pro Cell-Chip leisten - dann braucht man nur noch 10 000 Stück davon ...
Und unter welchem Betriebssystem werden die Supercomputer der Zukunft laufen? „Klar: Linux”, werden viele sagen, aber Microsoft hat zur ISC2006 ihren Windows Compute Cluster Server 2003 herausgebracht, der ein interessantes „flaches“ Lizenzmodell bietet. Die Szene in den Hochschulen und Entwicklungsabteilungen reagierte keineswegs ablehnend, sondern will sich Microsofts Angebot in Ruhe ansehen. Und die Banken und Versicherungen zeigten sich sehr erfreut, dass sie nun ihre gigantischen Excel-Tabellen und -Makros schnell auf einem Cluster-Server abarbeiten können.
| Die Top Ten der 27. Top500-Liste der Supercomputer | ||||||
| Rang | Rechner (Hersteller) | Betreiber | Land | Rang Herbst 2005 | Prozessoren | Rmax [TFlop/s] |
| 1 | eServer BlueGene (IBM) | DOE/NNSA/LLNL | USA | 1 | 131 072 PowerPC440, 700 MHz | 280,6 |
| 2 | eServer BlueGene (IBM) | IBM, Thomas Watson | USA | 2 | 40 960 PowerPC440, 700 MHz | 91,3 |
| 3 | ASC Purple - eServer pSeries p5 575 | DOE/NNSA/LLNL | USA | 3 (aufgerĂĽstet) | 12 208 Power5, 1,9 GHz | 75,8 |
| 4 | Columbia (SGI) | NASA | USA | 4 | 10 160 Itanium 2, 1,5 und 1,6 GHz | 51,9 |
| 5 | Tera-10, Novascale 5160 | Commissariat à l’Energie Atomique (CEA) | Frankreich | - | 8704 Itanium2 1,6 GHz | 42,9 |
| 6 | Thunderbird, Dell PowerEdge 1850 | Sandia National Laboratories | USA | 5 | 9024 Xeon, 3,6 GHz | 38,3 |
| 7 | TSUBALE, GSIC Center | Tokyo Institute of Technology | Japan | 5 | 10 368 Opteron 2,4/2,6 GHz | 38,2 |
| 8 | JUBL, eServer BlueGene (IBM) | Forschungszentrum JĂĽlich | Deutschland | 6 | 16 384 PowerPC440, 700 MHz | 37,3 |
| 9 | Red Storm (Cray) | Oak Ridge National Labs | USA | 10 (aufgerĂĽstet) | 10 880 Opteron, 2,4 GHz | 36,2 |
| 10 | Earth Simulator (NEC) | Earth Simulator Center | Japan | 7 | 5120 NEC SX6 | 35,9 |
(as)