Next Stop: Exaflop
IBMs Petaflops-Knacker Roadrunner stand klar im Mittelpunkt der Internationalen Supercomputer-Konferenz ISC08 in Dresden. Aber es gab auch viele weitere Highlights während der Konferenz und in der begleitenden Ausstellung, die inzwischen zu einer ordentlichen Messe fürs High Performance Computing herangewachsen ist.
- Andreas Stiller
Veranstalter Prof. Dr. Hans Meuer ging in seiner Eröffnungsrede zur diesjährigen ISC08 – die mit 1400 Teilnehmern und 87 Ausstellern mal wieder aus den Nähten platzte und daher im nächsten Jahr ins Hamburger CCH umzieht – auch auf den Namensstreit ein, den der nach dem Wappenvogel des Staates New Mexico benannte IBM-Supercomputer Roadrunner hervorgerufen hat. Time Warner hält die Namensrechte an der berühmten Comic-Figur „Road Runner“ und betreibt unter diesem Namen auch einen Kabel/Internet-Provider. Und so musste die IBM-Rechtsabteilung darauf hinweisen, dass der Name für den Supercomputer vorerst nicht benutzt werden darf, jedenfalls nicht offiziell.
Dieser „inoffizielle“ Roadrunner, so erklärten IBM-Projektleiter Don Grice und Projektdirektor des Los Alamos National Laboratory Dr. Andrew White im Gespräch mit c't, habe schon mit 17 Connected Units (CU) das vertragliche Petaflops-Sollziel für mehrere vorgegebene Applikationen erreicht (also nicht nur beim Linpack, der für das Ranking in der Top500-Liste herangezogen wird). Somit konnte IBM eine komplette CU einsparen, denn ursprünglich war mit 18 kalkuliert worden. Dr. White ergänzte, Los Alamos habe aber bereits vier weitere CUs nachgeordert – bis zu 24 seien im Infiniband-Fabric vorgesehen.
Obiger Namensstreit stört die Supercomputer-Gemeinde indes nicht wirklich und spaßeshalber hat man den in etwa elf Jahren erwarteten tausendmal schnelleren Exaflops-Rechner schon mal Wile E. Coyote getauft – den Kollegen des Meep-Meep-Vogels. Für den „Coyoten“ gibt es nun nette Hochrechnungen über seinen mutmaßlichen Energieverbrauch. Auf Basis eines aktuellen Opteron, einfach linear hochgerechnet, wären dazu illusorische sechs Gigawatt nötig. Realistischere Abschätzungen mit neuen Fertigungstechniken und Architekturverbesserungen kommen immer noch auf rund ein Gigawatt – dieser Rechner bräuchte ein großes Kernkraftwerk allein für sich. Extrapolationen anderer existierender Design-Trends reduzieren das nach einem Report des amerikanischen Energieministeriums DOE auf vielleicht 130 Megawatt – immer noch ein erklecklicher Happen. Die Experten waren sich einig, dass da noch einiges passieren muss. Aktueller Effizienzmeister ist der PowerXCell-8i-Prozessor im QS22-Blade, so wie es das Fraunhofer-Institut für Techno- und Wirtschaftsmathematik in Kaiserslautern mit 488 MFlops/Watt bestimmt hat. Der Roadrunner hat demgegenüber noch ein paar „gefräßige“ Opterons dabei und liegt mit 433 MFlops/Watt etwas darunter.
Effizienzprobleme
Ein einzelner Lauf des Linpack-Benchmarks verbraucht bei einem der Top-10-Systeme gemäß der Rechnung von John Gustafson, CEO von Massively Parallel Technologies, rund 20 Barrel Öl, wobei die Gleitkommaberechnung allein nur mit 0,1 Barrel zu Buche schlägt. Den Rest benötigt man allein, um die Daten zu bewegen – da sieht man, an welchem Effizienzflaschenhals man ansetzen kann.
Konkrete Planungen für den nächsten Schritt zu besserer Effizienz und in Richtung Exaflops hört man aus Japan. Hier läuft an der Universität Tokio ein Ultra-Low-Power-HPC-Projekt JPC Crest, das von 2007 bis 2012 den Flops/Watt-Wert vertausendfachen soll. Dabei setzt man auch verstärkt auf Beschleunigerkarten. So wird derzeit der Supercomputer Tsubame 1.1 (Platz 24 in den Top500) mit den neuen Acclerator Cards von ClearSpeed sowie Nvidia-Tesla-Karten bestückt und von Dual-Core-Opteron auf Quad-Core-Opteron hochgerüstet.
In Version 1.5 soll er dann bei nahezu gleichem Energieaufwand von rund 0,8 MW mehr als die dreifache Performance erreichen: 390 Teraflops Spitzenleistung. Und in zwei Jahren soll V2.0 dann zehnmal so schnell und immer noch 0,8 MWatt schluckend die Petaflops-Marke ĂĽberschreiten.
Parallel dazu läuft das Projekt „Nextgeneration Supercomputer“, das das japanische Bildungsministerium mit umgerechnet rund einer Milliarde US-Dollar fördert. Unter der Leitung des Forschungsinstituts Riken soll bis 2012 ein 10-Petaflops-System aufgebaut werden, wozu NEC und Fujitsu neue Vektor- und SPARC-Architekturen entwickeln, die in einer Hybrid-Kombination zum Einsatz kommen sollen. Alles sei gut im Zeitplan, versicherte Riken.
Europas Weg
In Europa, so berichtete Prof. Bachem vom Forschungszentrum Jülich, soll die EU-Initiative Partnership for Advanced Computing in Europe, PRACE, dagegenhalten. 16 Staaten mit insgesamt 35 nationalen und europäischen Einrichtungen müssten hierfür alle zwei bis drei Jahre etwa 200 bis 400 Millionen Euro für einen neuen Zentral-Supercomputer (Tier 0) locker machen, hinzu kämen 100 bis 200 Millionen jährlich für die Betriebskosten – fürwahr kein Pappenstiel. In Deutschland bündeln inzwischen in der auf der ISC08 gegründeten Gauss-Allianz zwölf Einrichtungen ihre Kraft, darunter als Motor das Gauss Centre for Supercomputing, GCS, das wiederum ein Zusammenschluss aus dem Forschungszentrum Jülich, dem HLRS in Stuttgart und dem Leibnizrechenzentrum in München ist.
Noch ist bezüglich PRACE nichts entschieden, alles noch in der Planungsphase. Wahrscheinlich muss der zunächst auf ein Petaflops Performance angedachte Tier-0-Rechner über mehrere Standorte verteilt werden.
Wie so ein Verbund ausse-hen kann, zeigt das Gauss-allierte Hochleistungsrechenzentrum Nord mit dem Anfang Juli in der ersten Ausbaustufe eingeweihten HLRN II. Dieser Rechner wird in Hannover und Berlin aus gleich groĂźen SGI-Altix-ICE-8200EX-Systemen (mit Xeon-Quad-Cores) aufgebaut, die durch eine schnelle 10-GBit-Glasfaserverbindung gekoppelt sind. Solche 8200EX-Systeme unterscheiden sich ein wenig von klassischen Clustern durch ihre vier Infiniband-AnschlĂĽsse pro Blade, mit denen sich interessante Topologien aufbauen lassen. Sie werden bei der Top500 daher auch nicht unter Cluster, sondern unter MPP eingeordnet.
In die Top500-Liste geht das Pärchen derweil noch getrennt ein, mit jeweils rund 26,7 Teraflops belegt es weltweit die Plätze 71 und 72. Dabei haben aber nur 640 der geplanten 720 Knoten der ersten Ausbaustufe mitgerechnet. Bis September 2009 soll dann die Endstufe mit zusammengerechnet 2570 Knoten und 312 Teraflops Peak-Leistung erreicht werden.
Clusterisierung
Dank der Altix-ICE-Systeme ist SGI wieder besser in Tritt gekommen, unter anderem plant auch die NASA ein damit bestücktes Petaflops-System namens Pleiaden. Die großen Altix-Eisen mit Itanium spielen nur noch eine Nebenrolle, sie verbleiben aber für Aufgabenstellungen, wo SMP mit großem gemeinsamem Speicherraum unbedingt gebraucht wird. Heutzutage wird aber Software immer mehr „clusterisiert“. Zur Not helfen neue Konzepte, um SMP auf Cluster zu simulieren. So stellte die in Israel und Kalifornien angesiedelte Firma ScaleMP am Intel-Stand ihre mit Virtualisierung arbeitende Lösung vor. Performancedaten und Skalierungswerte für reale SMP-Software gabs noch nicht, nur für Mandelbrot-Fraktale und den Stream-Benchmark. In Italien hat sich ein Startup namens ScreenLogix der gleichen Aufgabe gewidmet, aber mit spezieller Hardware, mit einem Interconnect names HiDRA, das Speicherzugriffe der CPU direkt per Hardware in Messages umsetzt und über die Links verteilt. Ergänzt werden soll das Ganze demnächst auch mit einer Art Snoop-Filter-Cache, um unnötigen Verkehr abzufangen und so die Effizienz weiter zu erhöhen. Eine Hardware, die Speicherzugriffe in Messages umsetzen kann, ist bei NECs Vektorrechnern ein alter Hut. Auf der ISC08 brillierte NEC mit dem neuen Vektorprozessor SX9, der massiv gegenüber dem Vorgänger SX8R beschleunigt wurde.
Mit nunmehr 3,2 GHz Takt und 16 Pipelines erreicht die SX9-CPU 102,4 Gigaflops, gut 2,9-mal so viel wie Vorgänger SX8R. 100 Gigaflops und mehr erreichen Spezialprozessoren wie PowerXCell oder Beschleuniger-Karten zwar locker, aber nicht wie die SX9 mit einer Speicherbandbreite von 256 GByte/s auf 1 TByte Speicherraum. Das macht den Vektorrechner etwa für Wetter- und Klimamodelle hoch attraktiv, und NEC konnte damit schon mehrere große Ausschreibungen gewinnen, unter anderem beim Deutschen Wetterdienst in Frankfurt.
Doch wenn ein lokaler Speicher von wenigen Gigabyte für die Berechnung ausreicht, dann können sich die Beschleunigerkarten beeindruckend in Szene setzen. So fand AMD mit der Fire Stream 9250 ein sehr lebhaftes Interesse. Die vom Grafikprozessor abgeleitete HPC-Karte schafft mehr als 1 Teraflops in einfacher und mehr als 200 Gigaflops in doppelter Genauigkeit. Sie verbraucht nur 150 Watt und soll für weniger als 1000 Dollar im dritten Quartal auf den Markt. Mit ähnlicher Leistungsstärke will Nvidias neue Tesla-Karte C1060 aufwarten, jedenfalls bei einfacher Genauigkeit. In doppelter Genauigkeit hängt sie indes mit 125 Gigaflops hinterher. Sie verbraucht mit 160 Watt ein wenig mehr und soll mit 1699 US-Dollar auch mehr kosten.
In Japan wird derweil auch schon eine Beschleunigerkarte GigaAcell 180 mit dem Roadrunner-Prozessor PowerXCell 8i vermarktet, recht edel für umgerechnet rund 5200 Euro. Das muss man mit dem „Kampfpreis“ vergleichen, mit dem IBM derzeit den QS22-Blade in den Markt einführt: ein Chassis mit zwei QS22-Blades, also mit vier Prozessoren ab 6900 Euro (+ MwSt). Dieses Angebot ist jedoch terminiert bis Ende Juli.
Angesichts der AMD- und Nvidia-Performancezahlen nehmen sich die 96 Gigaflops (DP) der neuen Clearspeed-Beschleunigerkarte CSX700 bescheiden aus – aber die soll nur mit 12 Watt Verbrauch zu Buche schlagen, die Effizienz ist also um ein Vielfaches besser. Die PCIe-Karte soll im Herbst für 3500 US-Dollar auf den Markt, aber Clearspeed deutete an, dass man die Preise wohl noch weiter senken wolle.
Eine spezielle Mezzanine-Ausführung der Karte ist für HPs neues Blade-c-Format vorgesehen. Das ist mit der halben Höhe üblicher Blades schon sehr kompakt, aber HP toppt das Ganze noch mit dem Sandwich-Blade BL2x200c G5: zwei Blades in einem. Um das überhaupt thermisch mit insgesamt vier 3,3-GHz-Quad-Core-Xeons hinzubekommen, konnte HP nicht den E5000-Chipsatz für energiefressende FBDIMMs einsetzen, sondern musste auf den sparsamen 5100 für Embedded ausweichen, der DDR2-Speicher unterstützt. So kann man in nur einem einzigen Rack 1024 Prozessorkerne mit bis zu 12,3 Teraflops Leistung ackern lassen: ein Drittel des riesigen Earth-Simulators, der in Japan eine ganze Fabrikhalle belegt. (as)