NEC-Supercomputer Aurora: x86-Cluster mit Vektorkarten
NECs verrät auf der SC16 das Konzept des nächsten Vektorrechners Aurora.
Auf der SC16 hat NEC-Chefingenieur Shintaro Momose das Konzept des neuen Vektorrechners Aurora vorgestellt. NEC geht dabei weg von rein proprietären Systemen. Bei Aurora handelt es sich um Vektorprozessoren auf PCIe-3.0-Steckkarten, die in eine normale x86-Cluster-Infrastruktur eingebunden sind. Als Betriebssystem läuft ein übliches x86-Linux, mit Treibern für die Offload Engines, so wie man es von den GPUs auch kennt.
Ein Accelerator, so betonte Momose, sei das dennoch nicht, sondern eine Offload Engine, bei der die Applikationen komplett auf der Karte beziehungsweise den Karten laufen. Das x86-System wird dabei als reines I/O-System "missbraucht", für Storage, Netzwerk, USB, Grafik .... Die einzelnen Karten kommunizieren miteinander per MPI via PCIe 3.0. Einen eigenen schnellen, cachekohärenten Link à la CAPI oder Nvlink haben die Vektorkarten nicht.
Jede Karte stellt einen Knoten mit einem Prozessor dar, der viele Kerne besitzt. Jeder Kern besteht ähnlich wie beim Vorgänger NEC SX-ACE aus einer Skalar-Prozessor-Einheit (SPU) und einer Vektor-Prozessor-Einheit (VPU). Letztere ist für die hohe Rechenperformance verantwortlich: 300 GFlops/Core bei Single und 150 GFlops/Core bei Double Precision. Halbe Genauigkeit (fp16), wie sie für das Training von Neuronalen Netzen in Mode gekommen ist, unterstützt Aurora nicht.
Spitzenperformance
Die vorgesehene Anzahl der Kerne eines Prozessors wollte Momose nicht direkt verraten, aber in der Grafik lag die Performance eines Aurora-Prozessors bis hinauf zu GPGPU. Bezogen auf Nvidias P100 wären das etwa 10 TFlops für SP, demnach also bis zu 32 Kerne zu 300 GFlops. Bei den NEC-Vektorprozessoren skaliert insbesondere auch die lokale Speicherbandbreite mit der Zahl der Kerne. Im SX-ACE hatte der Prozessor vier Kerne zu je 64 GByte/s. Mit über 11 Prozent Effizienz in Bezug auf die theoretische Spitzenperformance beim HPCG-Benchmark lag er damit bereits weit über der Konkurrenz. Der Aurora-Prozessor kommt auf jeweils 150 GByte/s pro Core. Dann müsste der 32-kernige Prozessor mit insgesamt 5 TByte/s Speicherbandbreite arbeiten, was weit vor Xeon, Xeon Phi und GPGPU liegt. Die Grafik legt zudem nahe, dass es auch kleinere Versionen mit 8 und 16 Kernen geben wird.
Die Energieaufnahme liegt bei maximal 300 W TDP. Damit soll Aurora nicht nur in Supercomputern, sondern auch in Rack-Servern mit ein bis zwei Höheneinheiten oder in Tower-Systemen vermarktet werden. Wie bei GPGPUs können Entwickler preiswertere kleine Versionen zu Hause in ihren Desktop-Systemen betreiben. Ab 2018 will NEC die Aurora-Karten ausliefern. Zunächst will NEC Intels Skylake-EP-Prozessoren als Basis nutzen. Momose schloss aber nicht aus, dass man auch zu AMD Zen wechseln könnte. (as)