Nvidia H200 "Hopper" auch als PCIe-Karte lieferbar

Nvidia liefert den Hopper-Rechenbeschleuniger nun auch in einer PCI-Express-Version mit 141 GByte HBM3e und kündigt das Blackwell-Quartett GB200 NVL4 an.

2

Supermicro SuperServer SYS-522GA-NRT mit acht Nvidia H200 NVL

(Bild: Supermicro)

20.11.2024, 14:15 Uhr

Lesezeit: 2 Min.

c't Magazin

Von

Christof Windeck

Nvidia bringt eine weitere Version der Rechenbeschleuniger aus der vor mehr als zwei Jahren angekündigten Generation Hopper: Die PCIe-x16-Karte H200 NVL. Dank größerem und deutlich schnellerem lokalem Speicher soll sie große KI-Sprachmodelle (Large Language Models, LLMs) um bis zu 90 Prozent schneller verarbeiten als die vor 1,5 Jahren angekündigte H100 NVL. Die Rechenleistung des Chips bleibt dabei genau gleich. Die Leistungsaufnahme der PCIe-Karte steigt allerdings um 50 Prozent von 400 auf 600 Watt. Dennoch soll die H200 NVL bei optimaler Auslastung effizienter arbeiten als die H100 NVL. Zudem lässt sich die Leistungsaufnahme drosseln.

Jeweils zwei oder vier H200 NVL lassen sich per NVLink mit 900 GByte/s koppeln (450 GByte/s pro Transferrichtung); bei der H100 NVL schafft NVLink nur 600 GByte/s. Die Anbindung an das Server-Mainboard erfolgt per PCIe 5.0 x16, also mit bis zu 128 GByte/s (64 GByte/s pro Richtung).

Supermicro zeigte auf der Konferenz SC’24 den SuperServer SYS-522GA-NRT mit acht Nvidia H200 NVL und zwei Intel Xeon 6900P.

Preise für die H200 NVL nennt Nvidia bisher nicht. Die Vorgängerin H100 NVL ist seit einigen Wochen ab rund 30.000 Euro im Einzelhandel erhältlich.

Nvidia H200: PCIe- und SXM-Versionen
Karte/Modul	H200 SXM	H200 NVL	H100 NVL
Anschluss	SXM	PCIe 5.0 x16	PCIe 5.0 x16
Bauform	SXM	2 Slots	2 Slots
Leistungsaufnahme	700 W	max. 600 W	300 – 400 W
RAM	141 GByte HMB3e	141 GByte HMB3e	94 GByte HBM3
Transferrate	4,8 TByte/s	4,8 TByte/s	3,9 TByte/s
NVLink	0,9 TByte/s	0,9 TByte/s	0,6 TByte/s
maximale theoretische Rechenleistung Tensor Core
Int8/FP8 mit Sparsity	3,958 Pops/PFlops	3,341 Pops/PFlops	3,341 Pops/PFlops
FP16 oder BF16 mit Sparsity	1,979 PFlops	1,671 PFlops	1,671 PFlops
TF32 mit Sparsity	989 TFlops	835 TFlops	835 TFlops
FP64 oder FP32	67 TFlops	60 TFlops	60 TFlops
FP64 non-Tensor	34 TFlops	30 TFlops	30 TFlops
Sparsity: dünn besetzte Matrizen

Blackwell-Quartett

Nvidia liefert auch erste Versionen des Hopper-Nachfolgers Blackwell aus. Der Kombiprozessor Grace Hopper Superchip GB200 aus je einem CPU-Die (Grace, 72 ARM-Kerne) und zwei B200-Beschleunigern kommt bereits in einigen neuen Top500-Supercomputern zum Einsatz.

Zur SC’24 kündigte Nvidia ein neues GB200-Paket an, den GB200 NVL4. Es kombiniert vier B200 mit zwei Grace-Chips und soll ab der zweiten Hälfte des kommenden Jahres 2025 ausgeliefert werden.

Im Grunde besteht ein GB200 NVL4 aus zwei der im Juni vorgestellten GB200 NVL2. Es gibt also 768 statt 384 GByte schnelles HBM3e plus 960 statt 480 GByte LPDDR5X an den Grace-Chips. Insgesamt stehen folglich 1,7 TByte RAM bereit. Die maximale Leistungsaufnahme des GB200 NVL4 liegt bei 5,4 kW, weshalb das Modul vor allem in wassergekühlten Systemen rechnen dürfte.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externer Preisvergleich (heise Preisvergleich) geladen.

Preisvergleiche immer laden

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (heise Preisvergleich) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.