Fall Processor Forum: Applikation-Beschleuniger mit 50 GFLOP/s

ClearSpeed hat auf dem FPF einen "50 GFLOP Stream Processor" CSX600 vorgestellt, der aus 96 parallel arbeitenden Processing Elements (PE) zusammengesetzt ist.

In Pocket speichern vorlesen Druckansicht 49 Kommentare lesen
Lesezeit: 2 Min.
Von
  • Andreas Stiller

ClearSpeed hat auf dem Fall Processor Forum einen 50 GFLOP Stream Processor namens CSX600 vorgestellt. Er ist aus 96 parallel arbeitenden Processing Elements (PE) zusammengesetzt. Jedes PE ist ein kleiner VLIW-Prozessor (Very Long Instruction Word) für 32- oder 64-Bit-Gleitkomma und 16-Bit-Integer, mit einem lokalen Speicher von 6 KByte. Betrieben wird das PE-Feld "Poly Execution Unit" von einer Mono Execution Unit, die via Instruktions -und Daten-Caches und den integrierten DDR2-Speichercontroller an Code und Daten kommt. Das Konzept entspricht dem des seit Anfang des Jahres ausgelieferten kleinen Bruders CS301, der 25 GFLOP/s bei Single Precision erzielt.

Für die 50 GFLOP/s reicht laut ClearSpeed ein Takt von 250 MHz aus, was bei 5 Watt Leistungsaufnahme eine gewichtete theoretische Spitzenleistung von 10 GFLOP/s pro Watt ergibt. Bei realen Aufgaben mit DP-Gleitkommaoperationen (Matrixmultiplikation DGEMM) bewältigt der CSX600 25 GFLOP/s.

Zum Vergleich: Der neue Supercomputer-Spitzenreiter BlueGene/L schafft mit seinen PPC-Prozessoren eine DGEMM-Leistung von 5,2 GFLOP/s pro Prozessor, der kürzlich entthronte Earth Simulator mit dem SX6-Prozessor kommt in dieser Disziplin auf 7,0 GFLOP/s pro Prozessor. Gewichtet mit dem Prozessorverbrauch liegt der CSX600 um mehr als das 100fache besser als der BlueGene-Prozessor PPC440 und um das 600fache besser als NECs SX6, welcher damit aber immer noch um 50 Prozent effizienter ist als ein 3,2-GHz-Xeon. (as)