Prozessorgeflüster

Mit einer ungewöhnlichen Kernzahl von 17 macht IBMs neuer BlueGene/Q-Prozessor auf sich aufmerksam. AMDs 16-Kerner Interlagos kommt vielleicht ein bisschen früher und vom Itanium gibts neue Lebenszeichen.

In Pocket speichern vorlesen Druckansicht 1 Kommentar lesen
Lesezeit: 6 Min.
Von
  • Andreas Stiller

Der „Heptakaideka-Core“-Prozessor BlueGene/Q, den IBM auf der Supercomputer-Konferenz SC10 in New Orleans vorstellte, soll in rund zwei Jahren den vom US-Verteidigungsministerium bei IBM in Auftrag gegebenen 20-PFlops-Rechner Sequoia antreiben. Von seinen 17 Kernen sind jedoch nur 16 fürs Rechnen vorgesehen, der 17. soll Kontroll- und I/O-Aufgaben verrichten. De facto hat IBM dem BlueGene/Q intern sogar 18 Kerne spendiert, einer ist als Reserve vorhanden, was die Ausbeute oder die Zuverlässigkeit im Betrieb erhöhen kann.

Das BlueGene/Q-Modul mit DDR3-Speicher und fünf Links samt wasserdurchflossenem Kühlkörper

Gegenüber seinen BlueGene-Vorgängern wurde die Q-Version zudem auf 64 Bit aufgerüstet und die SIMD-Einheit verbreitert, sodass sie nun vier doppeltgenaue Fused-Multiply-Add-Befehle mit acht Gleitkommaoperationen pro Takt ausführen kann. Bei 1,6 GHz Takt kommt der Prozessor somit auf 205 GFlops – findige Programmierer könnten aber den 17. Kern auch noch mitrechnen lassen und so die Performance weiter erhöhen. Zusätzlich arbeitet der Prozessor mit Vierfach-SMT, bietet also dem Betriebssystemen zum Beispiel (RHEL6 auf den I/O-Knoten, spezielles Compute-OS auf den Rechenknoten) 64 „logische“ Kerne oder Threads an.

Dank 64 Bit können die Module jetzt 8 oder 16 GByte DDR3-Speicher betreiben. Fünf Links (2 GByte/s pro Richtung) gehen von jedem Modul zu den Nachbarn, womit sich verschiedene 5D-Topologien aufbauen lassen.

Ein halbes Rack mit 8192 BlueGene/Q-Kernen hat jetzt schon mal seine Leistungsfähigkeit beim Linpack-Benchmark unter Beweis gestellt. Das Testsystem des Thomas J. Watson Research Center kam auf 65,3 TFlops und erreichte Platz 115 in der neuen Top500-Liste. Mit dem Verbrauch von nur 38,8 kW markierte es einen neuen Rekordwert in der Energieeffizienz von knapp 1700 MFlops/Watt. Für Sequoia am Lawrence Livermore National Laboratory sind 96 vollbestückte Racks vorgesehen, die dann Ende 2012 über 20 PFlops an theoretischer Spitzenleistung erzielen sollen.

Bis dahin soll längst schon AMDs 16-Kerner Interlagos mit der neuen Bulldozer-Architektur ins Rennen eingegriffen haben. AMD machte auf der SC10 den Wissenschaftlern sogar Hoffnung, dass er vielleicht früher fertig sein könnte als ursprünglich vorgesehen, also noch vor dem dritten Quartal 2011. Den in der HPC-Szene herrschenden Bedenken wegen der „halbierten“ FPU – ein Bulldozer-„Modul“ beherbergt zwei Integer-Kerne, aber nur eine FPU – konnte AMD einigermaßen schlüssig entgegnen, dass die „Flex FP“ zwei 128-bittige Befehle (SSE, AVX) gleichzeitig auszuführen vermag. Das gilt insbesondere für die bei HPC so hoch geschätzten Multiply-Add-Befehle (FMA), auf die man bei Intels Sandy Bridge und vermutlich auch beim Nachfolger Ivy Bridge vorerst noch wird verzichten müssen. Nur für die zunächst noch recht selten genutzten 256-bittigen AVX-Operationen schaltet Bulldozer die Einheiten zusammen.

Interlagos mit seinen acht Modulen oder 16 Kernen schafft demnach 64 doppeltgenaue Gleitkommaoperationen pro Takt, mithin bei 3,5 GHz 224 GFlops. Den gleichen theoretischen Spitzenwert wird auch Intels geplanter Achtkerner Sandy Bridge EP bei nämlichem Takt erreichen. Zwar unterstützt er keine FMA, kann aber eine AVX-Multiplikation und -Addition in voller 256-bittiger Breite parallel ausführen.

Die Bulldozer-Taktangabe von 3,5 GHz findet man ebenso wie die Zahl der Transistoren eines Moduls (213 Millionen) in den Abstracts zu den Präsentationen für die nächste International Solid-State Circuits Conference (ISSCC) im Februar 2011. Intel will auf dieser Veranstaltung neben ein paar weiteren Details zu Sandy Bridge und Westmere-EX insbesondere mit ersten Angaben zur nächsten Itanium-Generation Poulson aufwarten. Ein paar Dinge sind im Abstract schon vorab verraten: 32-nm-Technik, 8 Kerne mit Simultaneous Multithreading (SMT), 12-fache Skalarität (vier Bündel mit je drei Befehlen pro Takt, und damit doppelt so viele wie bisher), 3,1 Milliarden Transistoren auf 544 mm2, insgesamt 50 MByte Cache, 128 GByte/s Bandbreite zwischen den Prozessoren und 45 GByte/s Speicherbandbreite. Es wird nun spekuliert, Poulson könnte vierfaches, feinkörniges SMT haben – vielleicht sogar, so wie beim Power7, mit unterschiedlichen Prioritäten. Eine weitere Annäherung an die Power7-Architektur könnte ein möglicher Wechsel zur Out-of-Order-Execution sein. Das hat David Kanter von www.realworldtech.com ins Spiel gebracht, in dessen Forum ein gewisser Linus Torvalds mit recht markigen Sprüchen gegen die „missratene“ Itanium-Architektur wettert.

Modernere Vektoreinheiten wie SSE kennt Itanium bislang nur in der 32-Bit-Emulation. Ob Poulsen AVX oder noch was Besseres bieten wird, ist unbekannt, doch seine Transistorzahl – nach Abzug der Caches – dürfte dafür kaum ausreichen.

Die aktuellen Advanced Vector eXtensions (AVX) sind aber auch nicht mehr jene, welche Intel vor fast drei Jahren vorgestellt hatte. In der Zwischenzeit schmiss Intel einige Permutationsbefehle hinaus und fügte 256-bittige Streaming-Befehle hinzu. Vor allem aber wurden die ursprünglich als Vier-Operand-Befehle geplanten FMA-Operationen (etwa VFMADDPD) auf drei Operanden abgestrippt. Ein Quelloperand wird folglich mit dem Ergebniswert überschrieben, welcher das ist, kann man sich aussuchen. So multipliziert VFMADD213PD den zweiten Operanden mit dem ersten, addiert den dritten und überschreibt mit dem Ergebnis den ersten.

Wahrscheinlich hat Ronak Singhal, unter dessen Leitung in Oregon der für 2012 geplante Haswell-Prozessor in 22-nm-Technik (und später dann Rockwell in 16-nm-Strukturen) entwickelt wird, darauf hingewirkt, um den Befehlssatz mit dem der dann spruchreifen 512 Bit breiten Vektoreinheit abzustimmen. Dieser früher als Larrabee New Instruction Set (LNI) bekannt gewordene Befehlssatz hat nämlich für FMA just die gleiche Syntax, unterstützt also nur drei Operanden.

AMD will bei Bulldozer indes neben den eingeschränkten neuen Funktionen auch die ursprünglich vorgesehene Vier-Operanden-Fassung (FMA4) anbieten, wenn auch mit einem etwas anderen Encoding. Und die bei Intel unter die Räder gekommenen Permutationsbefehle wird man wohl ebenfalls bei Bulldozer wiederfinden. So gesehen ist Bulldozer und nicht Sandy Bridge der Prozessor, den Intel mit AVX ursprünglich im Sinn hatte. (as)