Nvidia Ampere A100: Volle Grafikfunktion und CPU-unabhängig

Nvidias Rechenzentrums-Beschleuniger A100 kann als PCIe-4.0-Karte EGX A100 ziemlich autark von der CPU arbeiten und nutzt einen seiner HBM2-Chips gar nicht.

28

Nvidias neue GPU-Generation Ampere A100

(Bild: Nvidia)

21.05.2020, 13:59 Uhr

Lesezeit: 6 Min.

c't Magazin

Von

Carsten Spille

Im Hintergrundgespräch mit Chefentwickler Jonah Alben erfuhr c't einige weitere, interessante Details über Nvidias kürzlich vorgestellten A100-Chip für Rechenzentren. Er hat volle Grafikfunktionen, ein HBM2-Modul "zuviel" und kann als EGX-Edge-Accelerator in Verbindung mit einem schlauen Netzwerkchip fast unabhängig von der CPU rechnen.

Der A100 ist der erste Chip mit der neuen Ampere-Architektur von Nvidia. Dazu integriert der Hersteller ein umfassendes Arsenal an Recheneinheiten für verschiedene Einsatzzwecke, etwa aufgebohrte Tensor-Cores für Machine Learning, und viel ECC-geschützten Speicher vom L1-Cache bis hin zu den 40 GByte lokalen HBM2 - und das, obwohl der A100 noch gar nicht den Vollausbau der Ampere-Architektur (GA100) hat.

Passend zum Einsatzgebiet konzentrierte sich Nvidia bei der Vorstellung auf die Funktionen, bei denen man für die avisierte Klientel besonders punkten kann: Starke Verbesserungen beim maschinellen Lernen (Machine Learning, ML) und High-Performance-Computing (HPC) mit doppeltgenauen Gleitkomma-Berechnungen. Etwas kurz kamen bei der Vorstellung andere Aspekte wie zum Beispiel die Grafikfunktionen des Chips.

A100: Yes, it could run Crysis

Im Begleitmaterial zur Ampere-Architektur, dem sogenannten Whitepaper, war die Rede davon, dass der A100-Grafikchip keine Display-Anschlüsse, keine Raytracing-Einheiten und keinen Video-Encoding-Hardwareblock hätte. Das führte zu Spekulationen, ob die GPU möglicherweise als reiner Datacenter-Beschleuniger ausgelegt und nicht als Grafikkarte nutzbar sei.

Nvidias Senior Vice President of GPU Engineering Jonah M. Alben sagte gegenüber c't in einer Telefonkonferenz nun, dass diese Funktionen in der Tat nicht im Fokus waren, sodass man in der Ankündigung nicht weiter darauf eingegangen sei. Ähnlich wäre man bei Nvidias voriger Datacenter-GPU, dem Tesla V100 verfahren, der aber sehr wohl über volle Grafikfunktionalität verfüge. Das gelte auch für den A100: Von Rasterisierungseinheiten bis zur Raster-Endstufe sei alles vorhanden, nur auf die Raytracing-Kerne der Turing-Gamer-Grafikkarten müsse A100 weiterhin verzichten. Gamer-Grafikkarten mit A100 sind jedoch weiterhin sehr unwahrscheinlich.

Der Ampere-Vollausbau GA100: 8192 FP32-Shaderkerne, 48 MByte L2-Cache sowie 48 GByte HBM2.

(Bild: Nvidia)

Ein Speicherchip bleibt ungenutzt

Der A100 wird mit 40 GByte lokalem Speicher vom Typ HBM2 verkauft - das entspricht fünf 8-GByte-Stapeln. Auf allen verfügbaren Darstellungen des Chip-Packages sind jedoch sechs Speicher-Chips zu sehen. Der A100 kann in seiner vollen Ausbaustufe auch tatsächlich über 12 512-Bit-Speichercontroller sechs HBM2-Stapel ansprechen. Bei den ersten A100 wird laut Auskunft von Alben auch jeder Speicherchip besetzt sein, sprich: 8 GByte teurer HBM2 liegen in der Anfangskonfiguration brach. Das verringert die Chancen, dass eine solche GPU-Konfiguration in den Desktop- oder gar Gamermarkt herunterträufelt weiter.

SmartNIC macht Server-CPU (ein bisschen) überflüssig

Den A100 wird zusätzlich zum SXM4-Modul für den Servereinsatz als EGX-Version geben. Dabei ist der Chip auf einer PCIe-4.0-Karte verlötet, auf der zugleich noch der 200 Gbps schnelle Netzwerkchip ConnectX-6 Dx sitzt. Er stammt von Nvidias kürzlich eingekaufter Netzwerktochter Mellanox und bedient Ethernet oder Infiniband. Mit dieser Plattform kann Nvidia einerseits die Integrationspläne für Mellanox-Technik demonstrieren und auch erste Schritte unternehmen, um ein GPU-basiertes Rechenzentrum von den Host-Prozessoren abzukoppeln: Der ConnectX-6 Dx hat eine Krypto-Einheit, die 200 Gbps in Echtzeit ent- und verschlüsselt. Die Daten können dann direkt in den Grafikspeicher geschaufelt werden. So werden etwa flexibel virtualisierte GPU-Cluster möglich, bei denen Daten auch ohne Host-Prozessoren verschlüsselt von und zur GPU gelangen, etwa über NVMe-over-Fabric.

Videos by heise

c't 3003

heise & ct

Peertube

Mehrfach-GPU

MIG steht für Multi-Instance-GPU. Ein einzelner A100-Beschleuniger lässt sich dabei in bis zu sieben kleinere Einheiten aufteilen. Das erhöht die Flexibilität im Rechenzentrum, wenn etwa zu Hauptgeschäftszeiten viele weniger aufwendige Inferencing-Instanzen parallel laufen müssen, abends dann das Netz aber mit neu gewonnenen Daten neu trainiert wird.

Die Aufteilung benötigt nur einen GPU-Reset zur Initialisierung, danach können die Ressourcen-Blöcke zur Laufzeit verändert werden: Minimum ist einer der sieben aktiven Graphics-Processing-Cluster des A100 und maximal können alle zusammengefasst werden - dabei entsteht allerdings etwas Overhead, der Leistung kostet. Deshalb ist der Modus auch nicht durchgehend und ab Werk aktiv. Wieviel Leistung genau verloren gehe, konnte Nvidia im Rahmen eines virtuellen Vortrags der GTC 2020 auf Nachfrage von c't nicht sagen. Das hängt sicher auch von der jeweiligen Anwendung ab.

Sowohl die Datenpfade innerhalb der GPU als auch die Speicherbereiche sind dabei komplett voneinander getrennt, so Nvidia. Keine Instanz könne der anderen beispielsweise den Cache-Zugriff ausbremsen oder auch nur deren Speicherbereich sehen. Eine wichtige Einschränkung: Nur eine der Instanzen ist eine vollwertige GPU mit Grafikfähigkeit, die restlichen sechs sind reine Compute-Instanzen, können also keine Bilder ausgeben.

Erstmal kein Einzelverkauf

Außer der EGX-Karte verkauft Nvidia den A100 aktuell allerdings nur im Rahmen seiner vorkonfigurierten HGX-Boards und DGX-Server-Einschübe. In der einfacheren HGX-Variante sind vier A100 direkt über je vier ihrer insgesamt 12 NV-Links miteinander verbunden. Bei acht Chips helfen sechs NV-Switches und eine 16x-A100-Variante wird zusätzlich mit einer Backplane ausgestattet.

Der DGX-A100-Server wird mit zwei 64-kernigen Epyc 7742 als Hauptprozessoren ausgestattet, die die in der vorigen DGX-Generation genutzten Intel Xeon-CPUs ablösen. Ein wichtiger Grund ist, dass im Mainstream-Segment bisher nur Epyc-7xx2-CPUs PCIe 4.0 bieten, welches die A100-Chips nicht bremst.

Eine ausführliche Analyse der Nvidia-Ampere-Architektur finden Sie in der kommenden c't-Ausgabe 13/2020 und dann auch bei heise+. (csp)

Beliebte Bestenlisten

Alle bestenlisten

Top 5: Die beste NVMe-SSD im Test

Top 10: Der beste höhenverstellbare Schreibtisch – Flexispot ist Testsieger

Top 10: Die beste Gaming-Tastatur im Test

Alle Angebote

Newsletter heise-Bot Push Push-Nachrichten

${intro} ${title}

${intro} ${title}