Coprozessor-Karten: Preise sinken, Angebot wächst

PCI-Express- und PCI-X-Erweiterungskarten mit rekonfigurierbaren Logikchips erreichen über 80 GFlop/s.

In Pocket speichern vorlesen Druckansicht 83 Kommentare lesen
Lesezeit: 4 Min.

Die südfranzösische Firma PLD Applications (PLDA) offeriert PCI Express-Karten mit rekonfigurierbaren Logik-Chips (FPGAs) von Altera oder Xilinx bereits zu Preisen von etwa 2000 Euro, das japanische Unternehmen K&F Computing Research verlangt für die einfachste PCI-X-Karte GRAPE-7 model 100 mit einem Altera-Chip rund 1300 Euro. Mit dem passenden Know-how lassen sich auch solche vergleichsweise günstigen Erweiterungskarten als Coprozessoren zur Applikationsbeschleunigung nutzen – die Firma ClearSpeed verlangt rund 8000 US-Dollar für ihre "Advance"-Boards mit zwei CSX600-Prozessoren, für die es aber auch bereits fertige Software (für Matlab 7.1/7.2 sowie Mathematica 5.2) und ein Software Development Kit (SDK) gibt.

Atsushi Kawai vom Saitama Institute of Technology der Universität Tokyo hat zwei x86-PC-Mainboards mit FPGA-Erweiterungskarten bestückt und in den FPGAs jeweils 10 beziehungsweise 16 parallel arbeitende Rechenwerke (Pipes) zur Simulation des N-Körper-Problems der Astrophysik implementiert. Jede N-Körper-Pipe schaffte 38 Berechnungen pro Taktzyklus; bei 10 Pipes und 125 MHz Taktfrequenz erreichte die PCIe-Karte von PLDA also 47,5 GFlop/s (20×38×125 Millionen Berechnungen/s), die PCI-X-Karte von K&F mit 16 Pipes und 133-MHz-Chip brachte es sogar auf 80,9 GFlop/s. Weil die selbst zusammengebauten x86-Rechner samt Coprozessorkarten relativ günstig waren, hat Kawai ein minimales Preis-Leistungsverhältnis von zunächst 158 und nach kleinen Optimierungen sogar 105 US-Dollar pro GFlop/s errechnet; damit kam er unter die Finalisten in der Preis-Leistungs-Kategorie für den anlässlich der Supercomputing 06 verliehenen Gordon-Bell-Preis.

Wie auch andere bisher vorgestellte Coprozessoren für Standardrechner (Cell-Blade, AMD Stream Processor) arbeiten die Kawai-Rechenwerke mit einfacher (Single-Precision-)Genauigkeit; laut Kawai ist das für das Simulationsprojekt aber ausreichend. Das von IBM zum Listenpreis von knapp 19.000 US-Dollar vertriebene Blade mit zwei Cell BE soll etwas mehr als 500 GFlop/s liefern, der 2600 US-Dollar teure Stream Processor auf Basis eines ATI-Grafikchips etwa 375 GFlop/s. Rechnet man einen Basis-PC-Preis von grob geschätzten 1000 US-Dollar dazu, kommt man beim Cell-BE-Blade zurzeit auf mindestens 40 USD/GFlop/s; günstiger ist die Cell-Karte von Mercury (35 USD/GFlop/s). Beim Stream Processor fallen aber lediglich 9,6 USD/GFlop/s an – bei der ab 600 US-Dollar teuren Playstation 3 kostet 1 GFlop/s gerade mal 3,12 US-Dollar, selbst wenn man einrechnet, dass dort nur 6 der 8 SPEs der Cell BE laufen (außerdem stehen nur 256 MByte Speicher zur Verfügung). Ein PC mit ClearSpeed-Karte (2 CSX600 mit zusammen 50 GFlop/s) bringt es nach dieser Rechnung auf 180 USD/GFlop/s, aber bei doppelter Genauigkeit – wenn eine Cell BE wie versprochen etwa 25 GFlop/s in Double Precision erreicht, liefert die Mercury-Karte also doppelt so teure Performance (360 USD/GFlop/s); zum Glück gibt es aber auch noch Mixed-Precision-Tricks.

Die erwähnten Coprozessoren sind allerdings allesamt nicht rekonfigurierbar, lassen sich also nicht optimal an die Aufgabenstellung anpassen. Außerdem schlucken sie sehr viel mehr elektrische Leistung als die FPGAs, die zwischen 10 und 25 Watt benötigen.

Laut Intel erreicht ein Core-2-Duo-Kern bei 3 GHz (also etwa im Xeon 5160 mit 80 Watt) 24 GFlop/s theoretische Maximalleistung pro Kern, wenn seine SSE-Einheiten Single-Precision-Gleitkommazahlen verarbeiten. In Double Precision sollen es noch 12 GFlop/s sein – davon bleibt bei Messungen mit dem Benchmark Linpack, der die Double-Precision-FP-Performance misst, kaum mehr als die Hälfte übrig, mit weniger stark optimiertem Code also noch weniger.

Coprozessor-Konzepte für HPC liegen zurzeit im Trend, siehe die Berichterstattung über AMD Torrenza und PCIe Geneseo. Dafür gibt es auch Fördermittel. Zurzeit konkurrieren noch viele unterschiedliche Konzepte und Schnittstellen, etwa CUDA von Nvidia, CTM für den AMD Stream Processor, das Cell-SDK für Linux oder das ClearSpeed-SDK. (ciw)