Azure: Microsoft kauft Tausende Nvidia-H100-GPUs für KI-Instanzen

Bei Microsoft entsteht das Äquivalent eines aktuellen Supercomputers. Daraus entstehen neue Hochleistungs-Instanzen mit "Sapphire Rapids"-CPUs und H100-GPUs.

In Pocket speichern vorlesen Druckansicht 9 Kommentare lesen
Nvidias GPU-Beschleuniger H100

Nvidias GPU-Beschleuniger H100 in Modulbauform.

(Bild: Nvidia)

Lesezeit: 2 Min.

Microsoft gibt Preview-Instanzen mit neuer Hardware innerhalb seiner Azure-Cloud frei, bevor diese ins allgemeine Angebot gelangen. Ein Nebensatz in der Ankündigung nennt den Einsatz Tausender GPUs und zeigt so, dass das kein Nebenprojekt darstellt: "Heute stellt Microsoft die ND H100 v5 VM vor, die On-Demand in Größen von acht bis zu Tausenden von Nvidia-H100-GPUs ermöglicht, die über Nvidias Quantum-2 InfiniBand-Interconnect miteinander verbunden sind."

Die neuen Azure-Instanzen sind intern wie ein Supercomputer aufgebaut, bei dem immer acht H100-GPU-Beschleuniger von Nvidia an zwei Intel-Prozessoren aus der aktuellen CPU-Familie Sapphire Rapids hängen. Konkrete CPU-Modelle nennt Microsoft nicht – die schnellsten verwenden 60 CPU-Kerne.

Immer acht H100-GPUs kommunizieren untereinander per NV-Link; die Nodes sind über Nvidias NV-Switches und dem Quantum-2-InfiniBand des zugekauften Netzwerkspezialisten Mellanox miteinander verbunden. Die Hardware gibt eine Interconnect-Geschwindigkeit von 3,2 Tbit/s innerhalb einer Fat-Tree-Topologie her. Entsprechende Systeme bietet Nvidia selbst mit dem DGX H100 an.

Aufgrund des Aufbaus lassen sich Instanzen nur in Blöcken von zwei CPUs und acht GPUs mieten. Microsoft sieht sie primär für das Trainieren von neuronalen Netzen vor – dafür eignen sich insbesondere die Tensor-Kerne in den GPUs. Aber auch die CPUs haben KI-spezifische Befehlssatzerweiterungen wie Bfloat16.

Dank des flotten Interconnects zwischen den GPUs sollen die Instanzen auch große KI-Modelle trainieren können. Ein 8er-Verbund kommt auf 640 GByte flotten HBM2e-Speicher, hinzu kommt DDR5-RAM an zweimal acht Speicherkanälen der CPUs. Microsoft hat schon vor der Ankündigung die Trainings-Hardware für die ChatGPT-KI von OpenAI bereitgestellt – die Erfahrungen damit sollen nun in die ND H100 v5 VM eingeflossen sein.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externer Preisvergleich (heise Preisvergleich) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (heise Preisvergleich) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

(mma)