Blackwell: Nvidia enthüllt seine nächste KI-Beschleuniger-Generation

Seite 2: Blackwell-Produkte

Nvidia will Blackwell als GB200-Board anbieten, auf dem zwei Blackwell-Doppelchips mit einem Grace-Prozessor kombiniert werden. Die Grace-CPU wurde laut Nvidia nur leicht angepasst, Details fehlen aber auch hier.

Während Nvidia die proprietäre schnelle GPU-Verbindung NVLink in der nunmehr fünften Generation von 900 auf 1800 GByte/s beschleunigt hat, müssen sich beide Blackwells den C2C-Link mit 900 GByte/s zur Grace-CPU teilen. Jedem Blackwell-Doppelchip stehen maximal 450 GByte/s kombinierte Up- und Downstream-Transferrate zur Verfügung. Die Transferrate von 1,8 TByte erreicht Nvidia durch eine Verdopplung der Geschwindigkeit pro Lane-Paar von 25 auf 50 GByte/s und Richtung, also 100 GByte/s full-duplex multipliziert mit 18 Lane-Paaren.

Nvidia GB200 — Das GB200-Board mit einer Grace-CPU und zwei B100-Beschleunigern.

(Bild: Nvidia)

Für einen flüssiggekühlten 1U-Rackeinschub kombiniert Nvidia zwei GB200; jeder Blackwell-Doppelchip darf dabei mit bis zu 1200 Watt Leistungsaufnahme konfiguriert werden, für die Grace-CPU bleiben 300 Watt, macht zusammen 2,7 kW. Doch auch die klassischen HGX-Rackeinschübe mit acht SXM-Karten wird es weiterhin geben. Für HGX B200 darf jeder Doppelchip bis zu 1000 Watt ziehen, im luftgekühlten B100 noch 700 Watt.

Eine Zwischenstufe kommt mit dem GB200 NVL72, das Nvidia "New Unit of Compute" nennt – jede Ähnlichkeit zum von Intel kürzlich aufgebenen "Next Unit of Compute" für Mini-PCs ist bestimmt nur zufällig. GB200 NVL ist ein vorkonfiguriertes, flüssiggekühltes Rack mit 36 Grace-CPUs und 72 Blackwell-Doppelchips, die über NVSwitches verbunden sind. Da diese Verbindung mit voller Geschwindigkeit, ohne weitere NVLink-Zwischenstufe, erfolgt, bezeichnet Nvidia das NVL72 auch als DGX-System.

Nvidia GB200 NVL72 — Das GB200-NVL72-System.

(Bild: Nvidia)

NVSwitch mit NVLink 5 für DGX SuperPODs

Für schnelleren Datentransfer stellt Nvidia einen neuen NVLink-Switch vor. Der Chip verbindet nun auch Racks untereinander und kann bis zu 576 Blackwell-Doppelchips (also 288 GB200) verbinden – zuvor waren 256 GPUs das Maximum. Der Switch hat 50 Milliarden Transistoren und wird wie Blackwell in TSMCs 4NP-Prozess hergestellt. Er überträgt die vollen 1,8 TByte/s jedes angeschlossenen Blackwell-Doppelchips von jedem an jeden Client und schafft insgesamt 7,2 TByte/s. In einem 1U-Tray, der auch im NVL72 zum Einsatz kommt, kühlt Nvidia zwei dieser Switches flüssig.

Von den 576 Chips können bis zu 128 in einer Confidential-Computing-Domain kombiniert werden, in der etwa der Zugriff von fremden Partitionen auf den vertraulichen Speicher unterbunden ist.

Auch hat Nvidia die PCI-Express-Anschlüsse mit PCIe 6 auf den aktuellen Stand gehoben. Zusammen können die Lanes noch einmal 256 GByte übertragen - wiederum in Addtion von Up- und Downstream.

Die verbesserte Konnektivität braucht es zum Beispiel für den ebenfalls schlüsselfertig erhältlichen SuperPOD mit acht DGX-GB200-Systemen. In einem SuperPOD sind also 288 Grace-CPUs, 576 Blackwell-Doppelchips und 240 TByte gesamter Speicher. Das System erreicht laut Nvidia 11,5 Exaflops (11.500 PFLOPS oder 11.500.000 TFLOPS).

Nvidia will mit NVLink5, Switches und 800 Gbit/s schnellem Netzwerk von Mellanox "hunderttausende" GPUs miteinander verbinden.

Hinweis: Nvidia hat die Reise- und Hotelkosten zur GTC 2024 für den Autor übernommen.