Hot Chips: Intels langer Weg zum Supercomputer-Coprozessor

Intel hat einige Details zum kommenden Rechenknecht Xeon Phi enthüllt, der vor Jahren noch ein Grafikchip namens Larrabee sein wollte.

In Pocket speichern vorlesen Druckansicht 46 Kommentare lesen
Lesezeit: 3 Min.
Von
  • Benjamin Benz

Der Xeon Phi kommt im Gehäuse einer Grafikkarte

Intel hat auf der Hot-Chips-Konferenz ein paar Details zur Architektur des Xeon Phi verraten, der zukünftig als Coprozessor die Supercomputerszene aufmischen soll. Seine Geschichte begann im August 2006 unter dem Projektnamen Larrabee als Grafikchip. Es folgten viele Ankündigungen und letztlich ein paar herbe Rückschläge. 2010 tauchte das Design dann unter dem neuen Namen Knights Ferry als Coprozessor mit PCIe-Schnittstelle wieder auf – wenn auch nur als Prototyp für ausgewählte Entwickler. Die damit gesammelten Erfahrungen flossen wiederum in Knights Corner ein, der demnächst als Xeon Phi debütieren soll – passender Weise steht ja in wenigen Wochen Intels Hausmesse IDF an.

Wäre nicht die Vector Proessing Unit, könnte man einen Kights-Corner-Core für einen In-Order-x86-Kern mit zwei Pipelines halten

Die Vorhut bildete auf der Hot Chips Intels Senior Principal Engineer Georg Chrysos, der bestätigte, dass Xeon Phi mehr als 50 Kerne und 8 GByte oder mehr GDDR5-Speicher auf einer PCIe-Steckkarte unterbringen wird. Bemerkenswert daran ist, dass Knights Corner ein eigenes Linux ausführt und mit dem Host-PC am liebsten per TCP/IP über PCIe kommuniziert. Alternativ ist auch MPI vorgesehen.

Die Ringe für Adressen und Kohärenznachrichten sind pro Richtung doppelt ausgeführt, damit sie die 64-Byte-breiten Block-Ringe nicht ausbremsen

Intern verbinden Ringbusse die einzelnen Kerne, ihre Caches, die Tag Directories und die Speichercontroller miteinander. Dabei gebietet jeder Kern über einen eigenen L2-Cache. Über den Status der einzelnen Cache-Lines führen separate Tag Directories Buch. Die Speicher-Controller sind gleichmäßig über den Ring verteilt, sodass keine allzu langen Wege entstehen. Der bidirektionale Ring besteht aus mehreren Teilen: Die 64 Byte breiten Block-Ringe übernehmen den eigentlichen Transport ganzer Cache-Lines. Adressen haben ebenso wie Kohärenznachrichten ihre eigenen schmaleren Pfade. Weil auf diesen aber häufiger Transfers stattfinden existieren sie pro Richtung doppelt.

Alle paar Kerne sitzt ein Speichercontroller mit auf dem Bus.

Die einzelnen Kerne erinnern an ältere x86-Designs – sieht man von den vier Threads und der 512-Bit-Vektoreinheit ab. Aber genau die soll mit SIMD-Technik und 16 Lanes für Gleitkommazahlen einfacher respektive 8 mit doppelter Genauigkeit den Löwenanteil der Arbeit erledigen. Letztlich entfallen auf die x86-Logik gerade einmal 2 Prozent der Die-Fläche.

Liegt keine Arbeit an, legt sich Intels Ritter Stück für Stück schlafen.

Viel Aufwand hat Intel auch in Stromsparmechanismen gesteckt. Nach einem Stufenmodell werden zuerst unbenutzte Kerne von Takt und dann auch Versorgungsspannung abgeklemmt. Als nächstes folgen Caches und Interconnects und zuletzt der ganze Uncore-Bereich. Dann wartet nur noch das PCIe-Interface auf ein Wecksignal. Konkrete Angaben zu einzelnen Produkten und deren Merkmalen wie Taktfrequenz, Speicherausstattung und Anzahl der Memory-Controller wollte Intel noch nicht machen. (bbe)