SC 2010: IBM zeigt BlueGene/Q mit 17 Kernen

Mit dem im 45-nm-Prozess hergestellten 17-Kerner BlueGene/Q soll der Rechner Sequoia für das US-Verteidigungsministerium eine theoretische Spitzenleistung von 20 PFlops erreichen.

In Pocket speichern vorlesen Druckansicht 108 Kommentare lesen
Lesezeit: 3 Min.
Von
  • Andreas Stiller

Die wohl wichtigste Neuerscheinung im HPC-Prozessorbereich dürfte IBMs neuer BlueGene/Q-Prozessor sein, der in rund zwei Jahren den vom US-Verteidigungsministerium bei IBM in Auftrag gegebenen 20-PFlops-Rechner Sequoia antreiben soll. BlueGene/Q ist ein 17-Kern-Prozessor, hergestellt im 45-nm-Prozess. 16 Kerne sind zum Rechnen gedacht, der 17. soll Kontroll- oder I/O-Aufgaben übernehmen. Intern ist BlueGene/Q sogar ein 18-Kerner mit einem Reservekern – nützlich, um die Ausbeute bei der Herstellung zu erhöhen.

Das BlueGene/Q-Modul mit Wasserkühlung

Gegenüber seinen BlueGene-Vorgängern wurde die Q-Version zudem auf 64 Bit aufgerüstet und die SIMD-Einheit verbreitert, so dass sie nun vier doppeltgenaue Fused-Multiply-Add-Befehle mit 8 Flops pro Takt ausführen kann. Bei 1,6 GHz Takt kommt der Prozessor somit auf 205 GFlops – findige Programmierer könnten aber den 17. Kern auch noch mitrechnen lassen und so die Performance weiter erhöhen. Zusätzlich arbeitet der Prozessor mit Vierfach-SMT, bietet also dem Betriebsystemen (RHEL6 auf den I/O-Knoten, spezielles Compute-OS auf den Rechenknoten) 32 "logische" Kerne oder Threads an

Dank 64 Bit können die Module jetzt 8 oder 16 GByte DDR3-Speicher betreiben. Fünf Links (2 GByte/s pro Richtung) gehen von jedem Modul zu den Nachbarn, womit sich verschiedene 5D-Topologien aufbauen lassen. 32 Module mit 512 Rechenkernen sind in einer Schublade zu einem Knoten zusammengefasst, inklusive Crossbar Switch, Links zu den Nachbarknoten und Anschlüssen für die Wasserkühlung. Spezielle Schubladen sind für I/O vorgesehen mit jeweils einem BlueGene/Q-Modul als I/O-Knoten und wahlweise InfiniBand QDR oder 10Gb-Ethernet via PCIe 2.0. Die Schubladen kann man von beiden Seiten in die Racks einschieben, 16 Stück auf jeder Seite, sodass ein Rack auf 16.384 Rechenkerne und mithin 209 TFlops kommt.

Ein Rechenknoten mit 32 BlueGene/Q-Prozessoren schafft über 6,5 TFlops.

Ein halbes Rack hat jetzt schon mal seine Leistungsfähigkeit beim Linpack-Benchmark unter Beweis gestellt. Ein Testsystem des "Thomas J. Watson Research Center" kam mit 8192 Kernen auf 65,3 TFlops und erreichte Platz 15 in der neuen Top500-Liste. Mit dem Verbrauch von nur 38,8 kW markierte es einen neuen Rekordwert in der Energieeffizienz von knapp 1700 MFlops/Watt. Für Sequoia am Lawrence Livermore National Laboratory sind 96 vollbestückte Racks vorgesehen, die dann Ende 2012 über 20 PFlops an theoretischer Spitzenleistung erzielen sollen. Eine etwas kleinere Version mit etwa halb so vielen Racks und für wissenschaftliche Aufgaben gedacht, soll am Argonne National Laboratory aufgestellt werden. (as)