Super Friday
Der 22. Februar dürfte als Super Friday der Supercomputer in die Annalen des Jahres eingehen – dann nämlich werden die beiden schnellsten zivilen Supercomputer der Welt offiziell eingeweiht: in Deutschland der Jugene des Forschungszentrums Jülich und in den USA der Ranger der Universität Texas.
- Andreas Stiller
Jugene ist mit seinen 167 Teraflop/s schon seit November in der Top500-Liste der Supercomputer verzeichnet, Ranger indes – mit fast der doppelten Linpack-Leistung – hat sich etwas verspätet. Eigentlich sollte er mit seinen 62 976 Prozessorkernen in 3936 Sun-Blades schon im Oktober 2007 den Betrieb aufnehmen, doch wegen Problemen unter anderem mit den Opteron-Quad-Core-Prozessoren musste Systemhersteller Sun die geplante Fertigstellung Monat für Monat auf nunmehr Ende Februar verschieben. Die TLB-Bug-Probleme des Prozessors sind aber nun ohne spürbare Performanceeinbuße gelöst, dank des Kernel-Patches, den AMDs in Dresden angesiedeltes Operating System Research Center (OSRC) rund um den ehemaligen Suse-Chefentwickler Chris Schläger entwickelt hat. Das CentOS-Linux der Rechner im Texas Advanced Computing Center (TACC), so TACC Assistant Director Tommy Minyard im Gespräch mit c't, wird ohnehin stark an die eigenen Bedürfnisse angepasst, etwa um das Lustre-Dateisystem einzubinden, da lässt sich ein Kernel-Patch leicht zufügen.
Showtime
Wenn sich nun hierzulande in Jülich der nordrhein-westfälische Ministerpräsident Rüttgers mit hochrangigen Vertretern aus Wirtschaft, Politik und Wissenschaft zur Eröffnungsfeier des laut aktueller Top500-Liste schnellsten Supercomputers der Welt trifft, wird schon ein paar Stunden später 8328 Kilometer entfernt sein texanischer Kollege, Governor Rick Perry in der texanischen Hauptstadt Austin mit anderen hochrangigen Gästen, etwa AMD-Chef Hector Ruiz und Sun-Mitgründer Andreas von Bechtolsheim, den im Februar 2008 wohl wirklich schnellsten zivilen Supercomputer mit einer Magnum-Champagnerflasche „begießen“. Okay, der Google-Cluster ist möglicherweise noch etwas performanter, aber Google meldet ja keine Linpack-Werte.
Unter den zahlreichen Gästen werden natürlich auch Vertreter der geldgebenden Institutionen sein, in Deutschland ist das vor allem die Helmholtz-Gesellschaft, die neben dem Bundesland Nordrhein-Westfalen und dem Bundesministerium für Bildung und Forschung die Anschaffungskosten für Jugene in Höhe von 15 Millionen Euro trägt. In Texas hat die National Science Foundation die Summe von 59 Millionen US-Dollar locker gemacht, die auch die Betriebskosten von 29 Millionen für fünf Jahre decken soll.
Kernschau
Beide Supercomputer besitzen nahezu gleich viele Prozessorkerne, Jugene hat mit 65 536 ein paar BlueGene/P-Kerne mehr, betreibt seine Prozessoren aber nur mit 850 MHz Takt, während Ranger seine Barcelona-Kerne mit 2 GHz taktet. Damit kommt er letztendlich auf die doppelte Performance von etwa 320 Teraflop/s Linpack-Leistung (bei 504 Teraflop/s theoretischer Spitzenleistung) – so ist sie jedenfalls mit Sun vertraglich vereinbart. Im Testbetrieb lag er mit über 300 Teraflop/s schon nahe dran, aber er ist noch nicht ganz optimal eingestellt; unter anderem läuft die InfiniBand-Verbindung derzeit noch mit Single Data Rate.
Ausgelegt ist das komplett neu von Sun designte Interconnect „Full-CLOS“ für Double Data Rate – mit neuartigen Dreifach-Kabeln, Steckern und vor allem mit dem neuen Riesen-Switch Magnum, den Andreas von Bechtolsheim im Juni letzten Jahres auf der Supercomputer-Konferenz in Dresden vorgestellt hat.
Zwei solcher Magnum-Switches, ein jeder mit 3456 Ports und 110 Terabit/s Gesamtbandbreite, stehen im Zentrum des TACC. Das reicht gut aus, um die 3936 Rechenknoten in den 82 Sun-6048-Racks zu verknüpfen, sowie vier Login- und acht High-Speed-Data-Server. Jedes Sun-6048-Rack bietet Platz für 48 Blades (Sun x6420), in 4 Reihen à 12, mithin für 768 Prozessorkerne. Lokale Festplatten haben die Blades nicht, aber 8 GByte Flash fürs Betriebssystem. Gespeichert wird ansonsten im via InfiniBand angeschlossenen Storage-Feld, das für 1,73 Petabyte Daten ausgelegt ist, die von 72 I/O-Servern (Sun Fire X4500) verwaltet werden. Hinzu kommt noch ein Archivier-System mit 2,8 PByte Kapazität.
Zwischen den Racks schau-feln 116 schrankhohe In-Row-Kühlsysteme von APC die rund 2,4 MW Wärmeleistung des Systems weg. Drei große 400 Tonnen schwere Kühlaggregate (eins davon redundant) stehen neben dem Rechenzentrum. Inklusive Kühlung liegt der gesamte Energiebedarf des Ranger unter Volllast bei 3,4 MW.
Effizienzmeister
Da ist Jugene in Bezug auf Energie- und Raumbedarf weitaus sparsamer. Nur 16 Rack-Schränke sind für die 16 384 Knoten-Module nötig. Je 32 Module befinden sich hier auf einer Basisplatine, 32 solcher Platinen passen in ein Rack. Verbunden sind die Knoten entweder in einer Torus- oder einer Tree-Topologie. Beim Torus sorgen zwölf Links à 3,4 GBit/s für die Konnektivität, beim Tree sind es sechs à 6,8 GBit/s. Je nachdem, wie weit miteinander kommunizierende Knoten auseinanderliegen, sind bis zu 64 „Hops“ für die Verbindung nötig – doch auch dann kommen maximal nur 5 µs Latenzzeit zusammen.
Zu den schräg designten BlueGene-Racks gesellen sich noch zwei IBM-Power5-Server p55A fürs Login und zwei weitere für den Service. Diese, ebenso wie das Storage-Feld JUST, sind via 10-GBit-Ethernet angekoppelt. Dazu sind 152 Knoten als I/O Nodes konfiguriert. JUST, mit seinen 32 P5-Servern und 768 TByte Gesamtkapazität, wird aber auch von den anderen Rechnern des Jülicher Forschungszentrums mitgenutzt.
Der Energiehunger des Jugene liegt bei maximal 40 KW pro Rack, also insgesamt bei nur 0,64 MW. Er ist also bezüglich Linpack-Benchmark erheblich effizienter als Ranger, zumal er während des Linpack-Laufs real nur etwa 0,5 MW verbrauchen soll. Allerdings ist sein Einsatzbereich vergleichsweise eingeschränkt. Nur 2 GByte Hauptspeicher pro Knoten und 5 TByte insgesamt – das ist für viele der speicherhungrigen HPC-Anwendungen zu knapp, Ranger bietet 32 GByte pro Knoten und 126 TByte insgesamt. Andererseits ist bei den BlueGene/P-Prozessoren die Bandbreite zum Hauptspeicher dank ihrer zwei 128-Bit-Kanäle um 30 Prozent höher, da muss man also das Für und Wider abwägen. Dass IBM nun mit „siebenmal höhere Speicherbandbreite pro Rack“ bei den Kunden punkten will, ist zwar angesichts der wesentlich kompakteren Racks mathematisch richtig, aber außer für Marketingzwecke wohl kaum von Belang. Wenn jedoch eine Applikation ins Speichermodell passt, gut auf den Torus oder Tree abbildbar ist und sie schließlich mit viel Handarbeit optimiert wurde – die Programmierung für BlueGene erfordert weit mehr manuellen Feinschliff als bei einem Allzweck-Cluster mit Opteron-Prozessoren – , so läuft sie auf BlueGene/P nicht nur schnell, sondern mit sehr hoher Energieeffizienz. IBM powert zudem mit der Zuverlässigkeit. Die Zahl der monatlichen Fehler pro 100 TFlops sei beim BlueGene/L um Faktor 400 besser als bei Intel-Architekturen.
Im Grid
Beide Rechner stehen im Dienste der Wissenschaft, der Ranger ist mit 90 Prozent seiner Rechenleistung für das amerikanische Wissenschaftsnetz TeraGrid dediziert, das damit seine Gesamtleistung mit einem Schlag verdoppelt. Der Universität Texas stehen fünf Prozent Rechenleistung zu, weitere fünf Prozent können sich andere texanische Einrichtungen teilen. Jugene wird vom Jülicher Supercomputer Center (ehemals Zentrum für angewandte Mathematik ZAM) technisch und organisatorisch verwaltet, über die Projekte und Rechenzeit wacht aber das Johan von Neumann Institut for Computing (NIC). Das ist ein rein virtuelles Institut, das vom Forschungszentrum Jülich (FZJ), vom Deutschen Elektronen-Synchrotron (DESY) und von der Gesellschaft für Schwerionenforschung (GSI) getragen wird. Ein Peer Review Board begutachtet die Anträge aus Forschung, Wissenschaft und der Industrie aus ganz Europa.
In der Zukunft soll das alles national und europäisch noch umstrukturiert werden. Die drei großen deutschen Rechenzentren (Leibniz-Rechenzentrum LRZ in München/Garching, Höchstleistungsrechenzentrum HLRZ in Stuttgart und das NIC) haben sich im Hinblick auf Petaflop-Performance zum Gauss Centre for Supercomputing GCS zusammengeschlossen. Die Verbindungen zwischen den Zentren (DEISA) sollen von jetzt 10 GBit/s auf 40 und später auf 100 GBit/s beschleunigt werden. GCS hat auch das nötige Gewicht, um europaweit in einer „Partnership for Advanced Computing in Europe (PRACE)“ von bislang 14 Ländern in vorderster Reihe mitreden zu können. Koordinator ist Prof. Achim Bachem, seines Zeichens Vorsitzender des Board of Directors des Forschungszentrums Jülich.
Der „Kick-off“ des von der EU mit 20 Millionen Euro mitfinanzierten PRACE fand nun Ende Januar bei einem Meeting in Jülich statt. Hauptziel ist es, im nächsten Jahr mindestens einen Petaflop-Rechner zu installieren – wahrscheinlich wohl in Jülich – sowie die europäische Infrastruktur auszubauen. In Zusammenarbeit mit Forschungseinrichtungen wie ESA, ESF und EBML soll PRACE in die europäische Forschung eingebettet werden.
Jugene wie Ranger arbeiten in Bereichen der Medizin, Biologie, Klimaforschung, Astronomie, Elementarteilchenphysik und so weiter, das unterscheidet sie von den militärisch genutzten Supercomputern, die ihre noch höheren Rechenleistungen für Atombombensimulationen und ähnliche Aufgaben nutzen, wenn auch nicht ausschließlich: ein kleiner Anteil dient immerhin zivilen Zwecken. Der mit 478 Teraflop/s klare Spitzenreiter der Top500-Liste steht im Lawrence Livermore National Laboratory in Kalifornien und wird derzeit erweitert. Und die nationale Konkurrenz, die Los Alamos National Labs, sind in der finalen Phase 3 beim Aufbau ihres Roadrunners, den IBM mit 6912 Opteron-DC- und 12 960 PowerXCell-8i-Prozessoren noch in diesem Jahr als vermutlich ersten Supercomputer über die Petaflop-Grenze hieven will.
| Die Top 2 der zivilen Supercomputer | ||
| Rechner | Jugene | Ranger |
| Einrichtung/Ort | FZ JĂĽlich | University of Texas/Austin |
| Rechenzentrum | JĂĽlich Supercomputer Centre (JSC) | Texas Advanced Computing Center (TACC) |
| System | IBM BlueGene/P | SUN Consolidation |
| Prozessorkerne | 65 536 | 62 976 |
| Racks/Nodes/Proz./Cores | 16R x 1024N x 1P x 4C | 82R x 48N x 4P x 4C |
| Prozessortyp | BlueGene/P Quad-Core, 850 MHz | Opteron Quad Core, 2 GHz |
| Knoten | 4 Cores, 2 GByte | 16 Cores, 32 GByte |
| Hauptspeicher | 5 TByte DDR2-425 | 126 TByte (buf DDR2-667) |
| Speicherbandbreite/Proz. | 13,6 GByte/s | 10,6 GByte/s (42,4 GByte/s Node) |
| nichtflüchtiger lokaler Speicher | – | 8 GByte Flash pro Node |
| Interconnect | 6/12 Links & 10 Gbe (152 I/O-Knoten) | InfiniBand DDR, 2 Magnum-Switches |
| Bandbreite | 5,1 GByte/s (alle Links) | 1 GByte/s P2P |
| Latenz | 0,16 … 4 µs (Tree), max 5 µs (Torus) | 1,5 … 2,3 µs |
| Storage | 768 TByte | 1,73 PByte |
| Performance Linpack | 167 TFlop/s | ca. 320 TFlop/s |
| theoretische Performance | 223 TFlop/s | 504 TFlop/s |
| max. Gesamt-Energieverbrauch | 0,64 MW + Storage | 3,4 MW (total) |
| Kaufpreis | 15 Mio. € | 30 Mio. US-$ |
(as)