Nvidia stellt PCIe-Version der Ampere-Karte vor

30 Server-Produkte mit Nvidia A100 werden von den OEM-Partnern bis Sommer erwartet. Mellanox UFM soll Hardwarefehler vorhersagen und Eindringlinge erkennen.

In Pocket speichern vorlesen Druckansicht 1 Kommentar lesen
Nvida stellt PCIe-Version der Ampère-Karte und ein erweitertes Sicherheitskonzept für Supercomputer vor

(Bild: Nvidia)

Lesezeit: 4 Min.
Von
  • Andreas Stiller

Kurz vor Start der (virtuellen) Internationalen Supercomputer ISC20 am heutigen Nachmittag – an der jeder nach Registrierung kostenlos teilnehmen kann – hat die Firma Nvidia die PCIe-Version für ihre A100-Tensor-Core-GPU-Architektur vorgestellt. Dazu benannte Nvidia zahlreiche OEM-Partner, die bis Sommer etwa 30 Server mit A100-PCIe-Karte oder SXM4-Modul vorstellen wollen. Das sind natürlich die "üblichen Verdächtigen" Asus, Atos, Cisco, Dell, Fujitsu, Gigabyte, HPe, Inspur und Lenovo – wer allerdings in der Liste fehlt, ist Partner IBM. "Man habe zwar eine "strong relationship with IBM", so Nvidias Product Manager Paresh Kharyam in einer Vorab-Pressekonferenz, aber man sei offen nach allen Seiten. Jedenfalls ist IBM zunächst nicht dabei, wartet vielleicht noch den Power10-Prozessor ab.

Die PCIe-4.0-Version verwendet den gleichen A100-Chip und bietet ebenfalls bis zu 40 GByte HBM2 und hat damit die gleichen Peak-Daten wie das SXM4-Modul:

  • FP32 Training: 312 TFlops (20 × Volta)
  • INT8 Inference: 1,248 TOPS (20 × Volta)
  • FP64 HPC: 19,5 TFLOPS (2,5 × Volta)
  • Multi-Instance GPU: (7 × Volta)

"Sustained", so Kharyam, liegt die Performance aber im Schnitt 10 Prozent unter der des SXM4-Kollegen. Dafür hat sie wie die V100-PCIe-Vorgängerkarte eine Thermal Design Power (TDP) von nur 250 Watt, wogegen das SXM4-Modul für 400 Watt ausgelegt ist. Im Zusammenspiel mit mehreren GPUs über NVlink3 (12 Links besitzt der Ampere-Chip mit insgesamt 600 GBit/s) und bei Multi-Instance-Betrieb soll die mittlere sustained Performance des SXM4-Moduls sogar um bis zu 50 Prozent höher sein.

Über PCIe-4.0 liegt die Übertragungsrate mit 16 Lanes bei 31,5 GByte/s, ausreichend, um eine Mellanox-Infiniband HDR mit 200 GBit/s zu versorgen. Einen Preis für die A100-PCIe-Karte wollte Kharyam nicht nennen, das überlässt er den OEM-Partnern.

Das DGX-A100-System mit 8 SMX4-Modulen und zwei AMD-Rome-CPUs sowie 9 Mellanox-InfiniBand-HDR-Interfaces hatte NVidia-Chef Jensen Huang schon auf der GTC vor ein paar Wochen vorgestellt. Dieses erreicht bereits eine Spitzenleistung von 5 PFlops. In einem auf Guru3D veröffentlichten Brief an die Mitarbeiter sprach Jensen Huang auch davon, dass die ersten GMX-Systeme zu Selene gehen, der Ausbaustufe des firmeneigenen Supercomputers Saturn V. Ob denn schon Selene in die neue Top500-Liste einziehen konnte, wird man heute Nachmittag erfahren. Vor allem in den USA und in Deutschland sind viele weitere Supercomputer mit A100 für später in diesem Jahr angekündigt:

  • Perlmutter, NERSC HPE/Cray
  • Juwels, Jülicher SC, Atos,
  • Raven-GPU, Max Planck Institut München, Lenovo
  • HeroKa, KIT, Lenovo
  • Theta-GPU, Argonne Labs, HPR/Cray
  • Hawk+, HLRS, HPE/Cray

Nvidias israelische Tochter Mellanox hat das Konzept des Netzwerk-Monitors und -Managementsystems UFM weiter ausgebaut, insbesondere um Supercomputer betriebs- und angriffssicherer zu machen. Mit ausgeklügelter KI soll der Manager mögliche Hardwarefehler frühzeitig erkennen oder gar rechtzeitig vorhersagen. Damit soll die kostspielige Downtime der Supercomputer minimiert werden.

Darüber hinaus soll der Manager aber auch absonderliches Verhalten seines Schutzbefohlenen frühzeitig erkennen, etwa wenn ein Eindringling beispielsweise massiv Bitcoin-Mining auf dem System gestartet hat (dazu muss man nicht erst auf die Stromrechnung des Providers warten). Solche Hackerangriffe haben gerade erst vor ein paar Wochen viele Supercomputer in Europa überschwemmt, in den HPC-Rechenzentren in Stuttgart, München, Jülich, Dresden und anderswo musste man gar zwischenzeitlich die Rechner vom Netz nehmen.

Mellanox benutzt seit einigen Jahren das speziell optimierte Linux der Firma Cumulus Networks für seine Switches. Vielleicht hat diese nunmehr von Nvidia frisch eingekaufte kalifornische Firma schon an dem erweiterten UFM-Konzept mitgearbeitet.

(as)