Nvidia H200 "Hopper" auch als PCIe-Karte lieferbar
Nvidia liefert den Hopper-Rechenbeschleuniger nun auch in einer PCI-Express-Version mit 141 GByte HBM3e und kündigt das Blackwell-Quartett GB200 NVL4 an.
Nvidia bringt eine weitere Version der Rechenbeschleuniger aus der vor mehr als zwei Jahren angekündigten Generation Hopper: Die PCIe-x16-Karte H200 NVL. Dank größerem und deutlich schnellerem lokalem Speicher soll sie große KI-Sprachmodelle (Large Language Models, LLMs) um bis zu 90 Prozent schneller verarbeiten als die vor 1,5 Jahren angekündigte H100 NVL. Die Rechenleistung des Chips bleibt dabei genau gleich. Die Leistungsaufnahme der PCIe-Karte steigt allerdings um 50 Prozent von 400 auf 600 Watt. Dennoch soll die H200 NVL bei optimaler Auslastung effizienter arbeiten als die H100 NVL. Zudem lässt sich die Leistungsaufnahme drosseln.
Jeweils zwei oder vier H200 NVL lassen sich per NVLink mit 900 GByte/s koppeln (450 GByte/s pro Transferrichtung); bei der H100 NVL schafft NVLink nur 600 GByte/s. Die Anbindung an das Server-Mainboard erfolgt per PCIe 5.0 x16, also mit bis zu 128 GByte/s (64 GByte/s pro Richtung).
Supermicro zeigte auf der Konferenz SC’24 den SuperServer SYS-522GA-NRT mit acht Nvidia H200 NVL und zwei Intel Xeon 6900P.
Preise für die H200 NVL nennt Nvidia bisher nicht. Die Vorgängerin H100 NVL ist seit einigen Wochen ab rund 30.000 Euro im Einzelhandel erhältlich.
Nvidia H200: PCIe- und SXM-Versionen | |||
Karte/Modul | H200 SXM | H200 NVL | H100 NVL |
Anschluss | SXM | PCIe 5.0 x16 | PCIe 5.0 x16 |
Bauform | SXM | 2 Slots | 2 Slots |
Leistungsaufnahme | 700 W | max. 600 W | 300 – 400 W |
RAM | 141 GByte HMB3e | 141 GByte HMB3e | 94 GByte HBM3 |
Transferrate | 4,8 TByte/s | 4,8 TByte/s | 3,9 TByte/s |
NVLink | 0,9 TByte/s | 0,9 TByte/s | 0,6 TByte/s |
maximale theoretische Rechenleistung Tensor Core | |||
Int8/FP8 mit Sparsity | 3,958 Pops/PFlops | 3,341 Pops/PFlops | 3,341 Pops/PFlops |
FP16 oder BF16 mit Sparsity | 1,979 PFlops | 1,671 PFlops | 1,671 PFlops |
TF32 mit Sparsity | 989 TFlops | 835 TFlops | 835 TFlops |
FP64 oder FP32 | 67 TFlops | 60 TFlops | 60 TFlops |
FP64 non-Tensor | 34 TFlops | 30 TFlops | 30 TFlops |
Sparsity: dünn besetzte Matrizen |
Blackwell-Quartett
Nvidia liefert auch erste Versionen des Hopper-Nachfolgers Blackwell aus. Der Kombiprozessor Grace Hopper Superchip GB200 aus je einem CPU-Die (Grace, 72 ARM-Kerne) und zwei B200-Beschleunigern kommt bereits in einigen neuen Top500-Supercomputern zum Einsatz.
Zur SC’24 kündigte Nvidia ein neues GB200-Paket an, den GB200 NVL4. Es kombiniert vier B200 mit zwei Grace-Chips und soll ab der zweiten Hälfte des kommenden Jahres 2025 ausgeliefert werden.
Im Grunde besteht ein GB200 NVL4 aus zwei der im Juni vorgestellten GB200 NVL2. Es gibt also 768 statt 384 GByte schnelles HBM3e plus 960 statt 480 GByte LPDDR5X an den Grace-Chips. Insgesamt stehen folglich 1,7 TByte RAM bereit. Die maximale Leistungsaufnahme des GB200 NVL4 liegt bei 5,4 kW, weshalb das Modul vor allem in wassergekühlten Systemen rechnen dürfte.
Empfohlener redaktioneller Inhalt
Mit Ihrer Zustimmmung wird hier ein externer Preisvergleich (heise Preisvergleich) geladen.
Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (heise Preisvergleich) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.
(ciw)