SC09: Intel demonstriert Larrabee mit über 1 Teraflops

Zur Eröffnung der diesjährigen Supercomputer-Konferenz in Portland, führte Justin Rattner eine Larrabee-Karte vor, die im übertakteten Modus bei der Matrixmultiplikation in einfacher Genauigkeit die Ein-Teraflops-Marke knapp überschritt.

In Pocket speichern vorlesen Druckansicht 55 Kommentare lesen
Lesezeit: 2 Min.
Von
  • Andreas Stiller

Der übertaktete Larrabee kam kurzzeitig auf 1006 GFlops

Zur Eröffnung der diesjährigen Supercomputer-Konferenz in Portland, führte Justin Rattner von Intel eine Larrabee-Karte vor, die im übertakteten Modus bei der Matrixmultiplikation in einfacher Genauigkeit (SGEMM) die Ein-Teraflops-Marke knapp überschritt. Die GPU- Konkurrenz wartet zwar zum Teil mit weit höheren theoretischen Werten auf, doch die wirkliche messbare SGEMM-Rate ihrer GPUs liegt oft weit darunter, bei Nvidia Tesla C1060 etwa bei etwa 320 GFlops. Nvidias kommende Fermi-Generation wird jedoch mindestens doppelt so schnell sein und ATIs aktuelle Direct-X11-Generation, mit theoretisch 2,72 Teraflops, dürfte jetzt schon die Teraflops-Marke real knacken und erst recht im Doppelpack als Radeon 5870x2. Im Normalbetrieb kam der Larrebee-Prototyp auch nur auf eine Dauerleistung von 417 Gigaflops und er erreichte in der Spitze 712 Gigaflops.

Um Larrabee war es in letzter Zeit recht still geworden, beim nichtöffentlichen HPC-User-Tag zwei Tage vor der SC09 hatte Intel ihn überhaupt nicht mehr erwähnt. Doch Rattner machte klar, dass Intel an seiner Roadmap festhalte. Zusätzlich wies er auf den wunden Punkt bei der aktuellen GPU-Konkurrenz hin, die mühsam die Daten vom Haupt-Speicher zum Kartenspeicher hin- und her transferieren muss. Dank eines gemeinsamen virtuellen Speichermodells (M-Y-O) soll das bei Intel weit besser gehen – richtig effizient ist das allerdings auch erst dann, wenn später mal Larrebee nicht über PCI-Express sondern direkt über QPI angekoppelt sein wird.

Rattner führte außerdem den für die erste Jahreshälfte 2010 vorgesehenen Nehalem-EX-Prozessor mit acht Kernen vor. Speziell für die HPC-Szene soll es hiervon eine Version mit nur sechs freigeschalteten Kernen und höherem Takt geben. (as)