Hot Chips: Intels langer Weg zum Supercomputer-Coprozessor
Intel hat einige Details zum kommenden Rechenknecht Xeon Phi enthüllt, der vor Jahren noch ein Grafikchip namens Larrabee sein wollte.
- Benjamin Benz
Intel hat auf der Hot-Chips-Konferenz ein paar Details zur Architektur des Xeon Phi verraten, der zukünftig als Coprozessor die Supercomputerszene aufmischen soll. Seine Geschichte begann im August 2006 unter dem Projektnamen Larrabee als Grafikchip. Es folgten viele Ankündigungen und letztlich ein paar herbe Rückschläge. 2010 tauchte das Design dann unter dem neuen Namen Knights Ferry als Coprozessor mit PCIe-Schnittstelle wieder auf – wenn auch nur als Prototyp für ausgewählte Entwickler. Die damit gesammelten Erfahrungen flossen wiederum in Knights Corner ein, der demnächst als Xeon Phi debütieren soll – passender Weise steht ja in wenigen Wochen Intels Hausmesse IDF an.
Die Vorhut bildete auf der Hot Chips Intels Senior Principal Engineer Georg Chrysos, der bestätigte, dass Xeon Phi mehr als 50 Kerne und 8 GByte oder mehr GDDR5-Speicher auf einer PCIe-Steckkarte unterbringen wird. Bemerkenswert daran ist, dass Knights Corner ein eigenes Linux ausführt und mit dem Host-PC am liebsten per TCP/IP über PCIe kommuniziert. Alternativ ist auch MPI vorgesehen.
Intern verbinden Ringbusse die einzelnen Kerne, ihre Caches, die Tag Directories und die Speichercontroller miteinander. Dabei gebietet jeder Kern über einen eigenen L2-Cache. Über den Status der einzelnen Cache-Lines führen separate Tag Directories Buch. Die Speicher-Controller sind gleichmäßig über den Ring verteilt, sodass keine allzu langen Wege entstehen. Der bidirektionale Ring besteht aus mehreren Teilen: Die 64 Byte breiten Block-Ringe übernehmen den eigentlichen Transport ganzer Cache-Lines. Adressen haben ebenso wie Kohärenznachrichten ihre eigenen schmaleren Pfade. Weil auf diesen aber häufiger Transfers stattfinden existieren sie pro Richtung doppelt.
Die einzelnen Kerne erinnern an ältere x86-Designs – sieht man von den vier Threads und der 512-Bit-Vektoreinheit ab. Aber genau die soll mit SIMD-Technik und 16 Lanes für Gleitkommazahlen einfacher respektive 8 mit doppelter Genauigkeit den Löwenanteil der Arbeit erledigen. Letztlich entfallen auf die x86-Logik gerade einmal 2 Prozent der Die-Fläche.
Viel Aufwand hat Intel auch in Stromsparmechanismen gesteckt. Nach einem Stufenmodell werden zuerst unbenutzte Kerne von Takt und dann auch Versorgungsspannung abgeklemmt. Als nächstes folgen Caches und Interconnects und zuletzt der ganze Uncore-Bereich. Dann wartet nur noch das PCIe-Interface auf ein Wecksignal. Konkrete Angaben zu einzelnen Produkten und deren Merkmalen wie Taktfrequenz, Speicherausstattung und Anzahl der Memory-Controller wollte Intel noch nicht machen. (bbe)