Nvidia DGX-2: Machine-Learning-Monster mit 16 GPUs und 2 Petaflops Rechenleistung

KI und Deep Learning sind in aller Munde – und Jensen Huang, Mitbegründer und CEO von Nvidia, ist vermutlich noch heute dankbar, dass vor zehn Jahren jemand auf die Idee kam, die GPU von Grafikkarten seiner Firma für parallele Berechnungen einzusetzen.

188

Im aufgeräumten Innern befinden sich zwei Module mit je acht GPUs und sechs NVSwitch-Steuerungschips über den 30 TB umfassenden SSDs.

(Bild: heise online/Roland Austinat)

28.03.2018, 08:53 Uhr

Lesezeit: 4 Min.

Von

Roland Austinat

Nvidia DGX-2: Machine-Learning-Monster mit 16 GPUs und 2 Petaflops Rechenleistung

KI und Deep Learning kennen keine Grenzen: So überwachen die Stadtväter von Kansas City im US-Bundesstaat Missouri damit ihre Straßen und können anhand der Fahrbahnbeschaffenheit, der Wetter- und Verkehrsdaten mit 76-prozentiger Wahrscheinlichkeit auf wenige Meter genau vorhersagen, wo sich das nächste Schlagloch bilden wird. Mit diesen Informationen bewaffnet macht sich dann eine Baukolonne auf, den Schaden zu beheben – billiger und schneller, als eine komplett kaputte Straße zu reparieren. Eine verbesserte Version der Software soll Schäden mit über 95-prozentiger Wahrscheinlichkeit auf drei Meter genau vorhersagen.

Ein Computer statt 15 Server-Racks

Doch Jensen Huang weiß, dass immer bessere Rechenmodelle immer bessere Hardware benötigen: "Unsere Kunden wollen KI-Training mit 4K-Bildern durchführen und die Öl- und Gas-Industrie braucht leistungsstarke Rechner, um schnelle Fourier-Transformationen gewaltiger Datenberge durchzuführen." Neurale Netze seien in den letzten fünf Jahren gar um den Faktor 500 komplexer geworden.

GTC 2018: DGX-2 (13 Bilder)

DGX-2: Nvidia packte 16 GPUs mit knapp 2 Petaflops Rechenleistung in ein einziges Gehäuse.
(Bild: heise online/Roland Austinat)

Nvidias brandneue Antwort auf diese Probleme heißt DGX-2 – ein Rechenungetüm, das Jensen Huang als "die größte GPU der Welt" bezeichnet. Auch, wenn das streng genommen nicht stimmt, denn im rund 160 Kilo schweren System stecken zwei Platinen mit jeweils acht Tesla-V100-GPUs mit je 32 GByte HBM2-RAM. Jede der 16 GPUs kann mit einer anderen GPU mit einer Geschwindigkeit von 300 GByte/s kommunizieren.

Das Ungetüm besitzt 81.920 Cuda-Rechenkerne, die eine Tensor-Core-Leistung von rund 2 Petaflops auf die Beine stellen. Anders ausgedrückt: In einem Serverraum, in dem bisher 300 Dual-CPU-Server in 15 Racks standen und 180 kW schluckten, muss jetzt nur noch ein DGX-2 Platz nehmen, der 60 Mal kleiner ist und mit 10 kW nur ein Achtzehntel deren Leistung aufnimmt.

NVSwitch statt NVLink

Als Massenspeicher verwendet der DGX-2 NVME-SSDs von insgesamt 30 TByte. Der Server am Boden des Geräts besitzt 1,5 TByte RAM und wird von zwei Xeon-Platinum-CPUs befeuert. Mit der Außenwelt unterhält sich der Rechner über acht EDR-1B-/100-Gigabit-Ethernet-Ports. Zur Kommunikation aller 16 GPUs untereinander reicht die auf acht Prozessoren ausgelegte NVLink-Technik, die noch im Vorgänger DGX-1 zum Einsatz kommt, allerdings nicht mehr aus.

Deshalb entwickelten Nvidia-Ingenieure eine neue Steuerungsarchitektur namens NVSwitch. Jeder der dabei verwendeten Chips besitzt zwei Milliarden Transistoren und 18 NVLink-Ports, die pro Port einen Datendurchsatz von 50 GByte/s ermöglichen – also 900 GByte/s pro Chip. Ein Dutzend dieser Chips steckt im DGX-2, ihr theoretischer Datendurchsatz liegt also bei 10,8 TByte/s. "Das wäre so, als würde man 14.000 Kinofilme in einer Sekunde herunterladen", sagt der um illustre Vergleiche nie verlegene Jensen Huang.

Viel mehr Leistung

Ein etwas besserer Vergleich ist das Training des neuralen Netzes FAIRSeq: Der im September veröffentlichte DGX-1 benötigte dafür 15 Tage, der DGX-2 meldet bereits nach eineinhalb Tagen Vollzug. Und brauchte das Training des fast schon legendären AlexNet vor fünf Jahren auf zwei GTX-580-Karten noch sechs Tage, wartet der DGX-2 nach 18 Minuten auf neue Herausforderungen – "eine Leistungssteigerung um den Faktor 500", freut sich Jensen Huang. Wer nicht alle 16 GPUs gleichzeitig braucht, kann den DGX-2 dank KVM-Support virtualisieren – mit einer, zwei, vier acht oder 16 GPUs pro System.

So viel Leistung hat ihren Preis – schließlich sind in die Entwicklung laut Huang 250 Millionen US-Dollar geflossen. Die erste an die Wand geworfene Zahl von 1,5 Millionen US-Dollar wurde denn auch von den meisten Anwesenden mit einem Schulterzucken quittiert. Doch Huang erlaubte sich einen Spaß, strich den Preis durch und zeigte den richtigen Verkaufspreis: 399.000 US-Dollar. Der ist zwar mehr als doppelt so hoch wie der des Vorgängers, doch dafür ist der DGX-2 bei einigen Test schon jetzt bis zu zehn Mal so schnell. Ab dem dritten Quartal dieses Jahres soll das System ausgeliefert werden.

[Update 28.03.2018 – 09:55 Uhr] Verbaut sind 16 GPUs, das wurde an zwei Stellen korrigiert.

[Update 28.03.2018 – 12:55 Uhr] Es handelt sich um eine Steigerung um den Faktor 500. Das wurde berichtigt. (mho)