Hot Chips: Mars-Prozessor mit ARMv8 für High Performance Computing

Mit 64 Kernen soll der Mars-Prozessor des chinesischen Start-up Phytium Intel Konkurrenz machen.

In Pocket speichern vorlesen Druckansicht 35 Kommentare lesen
Mars
Lesezeit: 2 Min.
Von
  • Andreas Stiller

Das 2012 gegründete chinesische Start-up Phytium präsentiert auf der 27. Hot-Chips-Konferenz seinen speziell für High Performance Computing (HPC) optimierten 64-Kern-ARMv8-Prozessor namens Mars. Jeweils acht sogenannte Xiaomi-Kerne bilden dabei ein Panel. Sie teilen sich einen L2-Cache von 32 MByte, zwei Directory Control Units (DCU) und eine Routing Cell für das interne Mesh. 3 Takte Latenz braucht das Mesh für einen Hop; im schlechtesten Fall sind es 15, im Mittel 9 Takte für die Kommunikation zwischen zwei Panels.

Der Xiaomi-Kern hat bis zu 210 Instruktionen "on th fly"

(Bild: Phytium)


Für alle acht Panels gemeinsam stehen 128 MByte L3-Cache und 16 DDR3-1600 Kanäle mit insgesamt 204 GByte/s zur Verfügung. Zwei PCIe3.0-Kanäle mit je 16 Lanes werden unterstützt, die I/O-Bandbreite beträgt 32 GByte/s. Jeder Xiaomi Kern hat seine eigenen jeweils 32 KByte großen L1-Caches für Instruktionen und Daten und fährt vier Out-of-Order-Pipelines mit bis zu 210 Befehlen „in flight“. Mit diesem großen OoO-Fenster zieht er in etwa mit Intels Skylake-Kern gleich. Aber anders als Intel gibt Phytium weitaus mehr Details über den internen Aufbau und die Funktionseinheiten bekannt.


Der Mars-Prozessor wird im 28-nm-Prozess, vermutlich von TSMC gefertigt. Das Die ist 640 mm² groß. Die Kerne fahren derzeit einen Takt von 2 GHz und kommen so insgesamt auf 512 GFlops Spitzenleistung bei Double Precision (vier DP-Flops pro Takt). Für den im HPC-Bereich üblichen Linpack-Benchmark gab Phytium noch keinen Wert an, er dürfte so bei 90 Prozent der Spitzenleistung liegen. Stream-Triad kommt auf bis zu 85 GByte/s Speicherbandbreite

Vorbildlich, Phytium präsentiert gleich SPEC-CPU2006-Werte. In Relation zu 120 Watt ZDP sind die Rate-Werte durchaus beachtlich.

(Bild: Phytium)


Die Einzelleistung eines Kerns bei Single Thread liegt nur etwa bei einem Drittel aktueller Intel Haswell-Prozessoren, gemessen mit SPECint_2006base (19,2) und SPECfp_2006base (17,8), ohne Autoparallelisierung. Der Prozessor skaliert jedoch gut und kommt dann bei 64 Kernen auf 672 SPECint_rate2006_base und 585 SPECfp_rate2006_base. Zum Vergleich: Ein System mit zweimal Xeon E5 2697v3 mit 56 logischen Kernen liegt bei 1120 respektive 857. Die Werte muss man allerdings in Relation zur Energieaufnahme sehen. Für den Mars hat Phytium 120 W TDP spezifiziert, die beiden erwähnten Xeon-Prozessoren kommen zusammen auf 260 W TDP. (as)