Supercomputer, ARMv8 und McKernel
Japanische und chinesische Supercomputer wollen mit ARMv8 samt HPC-Erweiterung in Richtung Exascale.
Auf der am Montag veröffentlichten 47. Top500-Liste sucht man sie noch vergebens, die ARMv8-Prozessoren, aber in der begleitenden Ausstellung zur ISC waren sie vielerorts zu finden, bei Cavium, bei Applied Micro, bei E4 ... und sogar bei zwei Teams in der Student Cluster Competition. Dank Riken/Fujitsu und dem langjährigen ehemaligen Top500-Spitzenreiter Tianhe 2 war ARMv8 für Supercomputer aber auch ansonsten in aller Munde.
Schon vor zwei Wochen konnte man in der Ankündigung zur Hot-Chips-Konferenz 2016 einen interessanten Tagesordnungspunkt lesen: "ARMv8-A Next Generation Vector Architecture for HPC" von Nigel Stephensen, ARM. Was nicht dabei stand, war, dass es sich dabei um eine primär von Fujitsu entwickelte Erweiterung für eine eigene ARMv8-Linie handelt, die beim "Post-K-Computer" eingesetzt werden soll. Post K soll 100-Mal so leistungsfähig bei "capacity computing" (mehrere oder viele Anwendungen gleichzeitig) beziehungsweise 50-Mal so leistungsfähig bei "capability computing" (eine einzige große Anwendung über das ganze System, wie bei Linpack) wie der aktuelle K Computer sein. Mithin müsste er dann auf rund 500 PFlops kommen.
Wie Yutaka Ishikawa von Riken nun auf der ISC bekannt gab, haben Riken und Fujitsu dafür unter dem Namen McKernel ein Multikernel-System entwickelt, bestehend aus Linux- und Leichtgewicht-Kernels. Die ARMv8-Architektur soll damit die echte Stärke von "Fujitsus proven Supercomputer Microarchitecture" herausstellen. Das heißt aber nicht unbedingt, dass die SPARC-Prozessoren völlig verschwinden.
Interessanterweise ist McKernel erst einmal für zwei ganz andere Prozessoren entwickelt worden, nämlich für Xeon und Xeon Phi (KNL). Als richtig großer Proof of Concept von McKernel soll an der Universität Tokio im Dezember Oakforest-Pacs den Betrieb aufnehmen. Bestückt mit 8208 Xeon-Phi-Knoten (7250) und damit mit rund 560.000 Kernen soll er 25 PFlops theoretische Rechenleistung erzielen. Das wären etwa 14 PFlops im Linpack, wenn man die Effizienz vom Stampede-KNL des Texas Advanced Computing Centers übernimmt.
McKernel ist quelloffen und wird zusammen mit vielen anderen Werkzeugen in OpenHPC eingebracht. Das ist ein kollaboratives Projekt unter dem Dach der Linux Foundation, für das sich insbesondere auch Intel sehr engagiert. Gut möglich, dass sich auch die Vektorerweiterung ARMv8-A stark an Intels AVX512 orientiert.
ARMV8 fĂĽr Tianhe 2A
Für den chinesischen Supercomputer Tianhe 2, das bestätigte Professorin Yutong Lu von der nationalen Universität für Verteidigungstechnologie (NUDT) im Gespräch mit heise online, erwägt man für das Upgrade sowohl den Einsatz von ShenWei-Prozessoren als auch die ARM-Architektur sowie einen eigenen DSP – auf jeden Fall nichts amerikanisches. Denn die Betreiber sind seit Mitte 2015 auf der schwarzen Liste, unterliegen also den Exportbeschränkungen der USA.
Zunächst, so Lu, ist Ende des Jahres ein Ersatz der 48.000 Intel-Phi-Prozessoren geplant. Xeon Phi KNL geht aus dem genannten Grund nicht, daher wird man auf in China entwickelte Beschleuniger-Karten zurückgreifen. Zum Upgrade sind chinesische DSPs vorgesehen (Matrix 2000 GPDSP, 2,4 TFlops DP),aber vielleicht kommen hier auch ARMv8-Chips zum Einsatz. Von dem im letzten Jahr auf der Hot-Chips angekündigten, für HPC optimierten, ARMv8-Prozessor Mars der Firma Phytium hat man seitdem zwar nicht mehr viel gehört, das könnte sich aber bald ändern. Geplant sind für den Tianhe 2A etwa 100 PFlops theoretische Spitzenleistung.
Da der Standort insgesamt für annähernd die doppelte Größe ausgelegt ist, könnten im weiteren Upgrade-Verlauf noch bis zu 32.000 Haupt- und 48.000 Co-Prozessoren hinzukommen und den Rechner so auf über 200 PFlops beschleunigen. Neben Mars-ARMv8 bewirbt sich aber auch der neue ShenWei 26010 um den Sockel.
ARMv8 in Competition
Die erwähnten beiden Teams in der Student Cluster Competition hatten mit ihren Systemen allerdings nicht viel Glück. Sie konnten noch nicht einmal alle Programme kompilieren, geschweige sie zum Fliegen bringen. Aber ihr Mut wurde dennoch belohnt. Das Team aus Barcelona bekam jedenfalls den Publikumspreis. Mutig war aber auch das Team aus Tartu in Estland, das schon im Vorjahr viel Pech hatte – der Sponsor war kurzfristig abgesprungen und die Netzteile ihrer kleinen Boards kamen nicht an. Diesmal wollten sie etwas Besonderes machen und mit vier Power8-Knoten angreifen, aber die verbrauchten viel zu viel, und so mussten sie vor allem basteln.
Das chinesische Team von der Tsinghua-Universität schaffte mal wieder den schnellsten Linpack – mit Hilfe neuster Nvidia-Pascal-Chips: achtmal GTX1080. Der Gesamtsieger wurde aber dennoch einmal mehr das Team South Africa von CHCP mit normaler Intel-Hardware (Haswell) mit acht Tesla K40 und mit eben noch pfiffigeren Studenten.
(as)