Prozessorgeflüster

Nvidia dreht auf – zunächst mit der Tesla-M2090-Karte, bei der endlich alle Fermi-Kerne mitrechnen dürfen. Später im Jahr soll dann der erheblich effizientere Kepler folgen. Und der Vierkerner Tegra-3 kommt vielleicht noch im Sommer in einem Amazon-Tablet. AMD und Intel kurbeln derweil OpenCL an.

In Pocket speichern vorlesen Druckansicht 1 Kommentar lesen
Lesezeit: 7 Min.
Von
  • Andreas Stiller

Auch bei Nvidia im sonnigen kalifornischen Santa Clara liest man aufmerksam das Prozessorgeflüster und so regte sich sofort Protest gegen die in der letzten Ausgabe formulierte Unterstellung, die GPU Technology Conference könnte auch deshalb aufs nächste Jahr verschoben worden sein, weil möglicherweise der nächste GPU-Chip Kepler nicht rechtzeitig zum Oktober 2011 fertig wird. Umso schöner, wenn sich das als aus der Luft gegriffen herausstellt, dann kann man ja termingerecht Ende dieses Jahres den von TSMC im 28-nm-Prozess hergestellten Chip erwarten. Schließlich soll der eine mehr als dreimal höhere Energieeffizienz als der derzeitige Fermi-Chip bieten. Wenn man sich Nvidias Grafik dazu anschaut – rund 1,5 GFlops/Watt für Fermi und 5 GFlops/Watt für Kepler bei doppelgenauen Rechnungen – dann legt Nvidia hier offenbar anders als sonst üblich die effektiven Linpack-GFlops und nicht die theoretischen Spitzenwerte zugrunde. Denn im Peak müsste der Fermi-Wert bei etwa 2,3 GFlops/Watt liegen (M2050 mit 515 DP-GFlops bei 225 Watt). Wie Nvidias Chefwissenschaftler Bill Dally schon auf der SC2010 im Interview verriet, soll Kepler dank seiner neuen Speicherarchitektur mit einer erheblich verbesserten Linpack-Effizienz um die 90 Prozent auftrumpfen. Bislang dümpelte diese Effizienz bei vergleichsweise schlappen 50 Prozent.

Die M2090: die erste Tesla-Karte auf der alle 512 Femi-Kerne mitrechnen dürfen.

(Bild: Nvidia)

Bis dahin legt Nvidia aber erst einmal bei den Fermis kräftig nach, und zwar mit der M2090, bei der alle 512 CUDA-Kerne (Shader) des Chips auch wirklich freigeschaltet sind. So erzielt die Karte bei 1,3 GHz theoretisch 665 GFlops und kann etwa im Linpack um 25 Prozent gegenüber der M2070 zulegen. Das Besondere daran ist, dass sie weiterhin im 225-Watt-TDP-Bereich liegen soll.

Hewlett-Packard hat für diese Karte in Zusammenarbeit mit Nvidia einen GPU-Server namens ProLiant SL390s G7 konzipiert, der acht dieser GPUs in einem Dual-Prozessor-Knoten aufnehmen kann. Den wird man dann wohl mit 5,3 TFlops DP-Rechenleistung als ein Highlight auf der kommenden Internationalen Supercomputer-Konferenz (ISC2011) Mitte Juni in Hamburg bewundern können.

Der Preis dürfte in der Gegend der ebenfalls mit 6 GByte Speicher bestückten Vorgängerkarte M2070 liegen, für die man ganz schön tief in die Tasche greifen muss: HP verlangt dafür 4350 US-Dollar. Nvdia-Chef Jen-Hsun Huang zeigte sich bei der Pressekonferenz zu Nvidias Quartalszahlen – leichte Gewinnverluste um knapp zwei Prozent auf 135 Millionen Dollar und um vier Prozent beim Umsatz auf 932 Millionen Dollar – enttäuscht über das Wachstum im HPC- und Workstationmarkt. Ganz unschuldig dürfte die Preisgestaltung der HPC-GPU-Karten daran wohl nicht sein.

Doch die Kritik an zu hohen Preisen traf erst mal andere: Huang war nämlich auch enttäuscht über den bislang mageren Erfolg von Android 3.0 Honeycomb, welches Nvidias Tegra-2-Prozessor zum Durchbruch verhelfen soll. Aber die ersten vorgestellten Geräte (allen voran Motorolas Xoom), so Huang, seien einfach zu teuer. Und von gelungenen Android-Apps für Tablets ist bis dato auch nur vergleichweise wenig zu sehen. Vielleicht kommt nun ja mit dem Acer Iconia Tab A500 (c't 12/11, Seite 69) neuer Schwung in diese Szene. Huang ist jedoch zuversichtlich; er sieht Android in spätestens zweieinhalb Jahren vor Apples iOS. Und damit Nvidia auch bei den Mobilfunkchips besser aufgestellt ist, hat man mal eben den europäischen Anbieter Icera aufgekauft. Und Mitte dieses Jahres, so die Gerüchteküche, könnte Amazon mit viel Tamtam bei den Android-Tablets Einzug halten, zunächst mit dem Tegra-2 im Einsteiger-Modell „Coyote“ und dann mit dem Vierkerner Tegra-3 im „Hollywood“.

Neuen Schwung will auch AMD in den GPU-Absatz bringen. Im letzten Jahr konnte man immerhin bei den externen Grafikchips für Desktop-PCs gegenüber Nvidia einiges an Boden gut machen (siehe c't 12/11, Seite 22). Im HPC-Bereich hingegen hat AMD Nvidia das Feld nahezu völlig überlassen – das soll aber bald anders werden. Mit Cray hat AMD einen HPC-Partner, der die Opterons in der Oberklasse der Supercomputer mit einigem Erfolg vermarktet. Zuletzt musste Cray aber mit 1,5 Millionen Dollar leicht rote Zahlen schreiben. Als Grund gab Cray-Chef Ungaro die Kürzungen in den Regierungshaushalten an, in den USA, aber vor allem im krisengeschüttelten Japan. In Europa hingegen sieht’s trotz Griechenland, Portugal und Irland deutlich besser aus, hier konnte Cray bereits diverse Verträge über Upgrades mit AMDs kommendem Interlagos-Prozessor unter Dach und Fach bringen, etwa mit der Universität von Edinburgh oder mit dem Schweizer Supercomputing Center (CSCS). Das will Ende des Jahres die aktuelle Cray XT5 auf eine Cray XE6 mit 400 Teraflops aufrüsten – alles in der Hoffnung, dass AMD den Interlagos auch termingerecht herausbringt. Bei den GPUs setzt Cray aber nicht auf AMD, sondern auf Nvidias eingangs erwähnten Kepler-Chip.

AMD hat hier eben noch zu wenig zu bieten. Seit einem Jahr ist das Spitzenprodukt die FireStream 9370 mit 528 DP-GFlops, 4 GByte GDDR5 bei 225 Watt, die für etwa 2400 US-Dollar zu haben ist. ECC kennt die FireStream nicht – da nimmt die HPC-Szene doch offenbar lieber die weit preiswerteren Radeons, so wie die amerikanische Firma RenderStream, die Server und Workstations jetzt auch mit acht Radeons HD 6970 oder vier HD 6990 versieht. Damit kommen die Systeme auf 5,4 TFlops theoretischer DP-Rechenleistung, also just auf den Wert von HPs neuem GPU-Server mit achtmal M2090, der wohl auch achtmal so viel kostet.

Doch auch die Integer-Performance ist wichtig. Beim Passwort-Knacken etwa (oclHashcat-lite) schaffen die vier HD-6990-Karten immerhin 45,7 Milliarden MD5-Checks pro Sekunde, acht Nvidia GTX580 bleiben mit 18,3 Milliarden dahinter deutlich zurück.

Auf dem kommenden AMD Fusion Developer Summit sollen HPC und OpenCL jedenfalls eine große Rolle spielen. Noch ist in freier Wildbahn im Vergleich zu Nvidias dominantem CUDA herzlich wenig von OpenCL zu sehen, aber nun will sich auch Intel diesbezüglich engagieren. Im Sommer soll Intels OpenCL-SDK herauskommen, das sich derzeit in der Betaphase befindet. Allerdings wird sich dieses zunächst nur auf aktuelle Prozessoren und deren Vektoreinheiten SSE4.1 und AVX beschränken. Ob und wann OpenCL für die Prozessorgrafik des Sandy Bridge folgen wird, ist noch unklar.

AMD braucht aber Hilfe, um OpenCL breitflächig zu etablieren. Auf der ISC2011 werden jedenfalls zwei Spezialisten aus beiden Häusern einträchtig ein gemeinsames vierstündiges Tutorial über „OpenCL: An Introduction for HPC Programmers“ abhalten – na ja, das CUDA-Tutorial am gleichen Tag dauert neun Stunden. (as)