Supercomputer-CPU mit ARM SVE: Fujitsu A64FX

Mit 2,7 TFlops soll der 48-Kerner A64FX ab 2021 den Exascale-Superrechner Post-K antreiben. ARM SVE soll aber auch in Europa zum Einsatz kommen.

In Pocket speichern vorlesen Druckansicht 30 Kommentare lesen
Prozessor Fujitsu A64FX mit ARM SVE für Post-K

Prozessor Fujitsu A64FX mit ARM SVE für Post-K

(Bild: Fujitsu)

Lesezeit: 3 Min.
Inhaltsverzeichnis

2014 fiel der Startschuss zur Entwicklung eines japanischen Exascale-Supercomputers, der ab ungefähr 2021 nutzbar sein soll. Dieser "Post-K"-Superrechner soll am Forschungsinstitut Riken stehen und löst dort den "K Computer" ab, der 2011 mit 8,2 TFlops die Spitze der Top500-Liste erklomm.

Für Post-K entwickelt Fujitsu den 64-Bit-ARM-Chip A64FX, der seine hohe Rechenleistung von 2,7 TFlops aus je zwei Scalable Vector Extensions (SVE) in jedem seiner 48 Kerne schöpft. Diese ARM-SVE-Einheiten verarbeiten 512-Bit-Werte, ähnlich wie Intels AVX-512.

Auch die European Processor Initiative (EPI), die europäische Prozessoren für Supercomputer und KI-Algorithmen entwickelt, will ARM SVE nutzen.

Fujitsu lässt den A64FX mit 7-Nanometer-Technik fertigen und stellte den Chip auf der Hot Chips 2018 vor. Demnach besteht der A64FX aus vier Core Memory Groups. Jede CMG enthält 13 identische CPU-Kerne, von denen einer I/O- und Verwaltungsaufgaben übernimmt. Jede CMG ist direkt mit 8 GByte High Bandwidth Memory HBM2 verbunden, das Daten mit bis zu 256 GByte/s überträgt. Pro Prozessor sind also 32 GByte HBM2-RAM mit 1 TByte/s angebunden. Beim aktuellen 20-nm-Chip SPARC64 XIfx verwendet Fujitsu noch Hybrid Memory Cube (HMC).

Bei der Konzipierung des Post-K-Superrechners wurde darauf geachtet, dass er sich für möglichst allgemeine Berechnungen eignet. Daher fehlen spezialisierte Beschleuniger. Der Code muss aber selbstverständlich ARM-SVE-Befehle nutzen, um die volle Performance auszuschöpfen. Das Riken und Fujitsu arbeiten daher bereits mit Open-Source-Entwicklern zusammen. Fujitsu betont außerdem, noch weitere ARM-Prozessoren zu entwickeln.

Die erwähnte European Processor Initiative will hingegen außer ARM-SVE-Prozessoren auch RISC-V-Beschleuniger entwickeln.

Die vier CMGs sind über ein Network-on-Chip (NoC) untereinander und mit zwei I/O-Einheiten verbunden: Die eine bindet 16 PCIe-3.0-Lanes an, die andere den Tofu-Interconnect, der die A64FX-Prozessoren im gleichen Rechenknoten und die Rechenknoten untereinander verbindet. Tofu ist ein "6D"-Interconnect mit Mesh- und Torus-Topologie.

Das interne NoC überträgt mehr als 115 GByte/s in zwei Richtungen gleichzeitig. Der Tofu-Interconnect läuft mit 28 GBit/s auf 10 Ports mit je zwei Lanes.

Rechnet man mit 2,7 TFlops pro Chip, sind für 1 Exaflop mehr als 350.000 Prozessoren nötig. Um die Leistungsaufnahme des Post-K-Rechners im Zaum zu halten, hat Fujitsu sehr auf Energiesparfunktionen geachtet.

Die hohe Zahl an Prozessoren im System macht es zudem nötig, dass jeder einzelne Chip möglichst zuverlässig läuft. Fujitsu hat daher insgesamt mehr als 128.000 Fehlerkorrektureinheiten eingebaut, von ECC für Caches und Register bis zu einer Retry-Logik für die CPU-Befehle.

Geht man von 350.000 Prozessoren mit je 32 GByte RAM aus, ergeben sich daraus über 11 PByte Arbeitsspeicher. (ciw)