Oracle: Atomkraftwerke für Gigawatt-Supercomputer genehmigt

Oracle baut einen Supercomputer mit 131.072 Blackwell-GPUs von Nvidia. Später sollen kleine Atomkraftwerke künftige Rechenzentren antreiben.

In Pocket speichern vorlesen Druckansicht 371 Kommentare lesen
Nvidia Serverrack mit Blackwell Beschleunigern

Nvidias GB200-NVL72-Server, das Oracle für seinen Supercomputer verwendet.

(Bild: Nvidia)

Lesezeit: 3 Min.
Inhaltsverzeichnis

Hyperscaler übertrumpfen sich beim Bau neuer Supercomputer, um immer mehr Rechenleistung fürs Training von KI-Modellen bereitzustellen. Trägt gerade noch frisch Colossus von xAI die Leistungskrone, hat nächstes Jahr ein namenloses System von Oracle gute Chancen, den Titel zu holen.

Der Cloud-Provider will im ersten Halbjahr 2025 ein Rechenzentrum mit 131.072 Blackwell-GPUs von Nvidia fertigstellen. Zum Einsatz kommen größtenteils fertige Server-Racks von Nvidia, die GB200 NVL72: Jedes wassergekühlte Rack besteht aus 36 GB200-Boards mit ebenso vielen Grace-ARM-Prozessoren (je 72 CPU-Kerne) und 72 B200-Beschleunigern. Der Vorteil für Oracle: Nvidia liefert die komplette Netzwerktechnik, inklusive Nvlink-Switches, um die Hardware untereinander zu verschalten. Damit bekommt das Oracle-System aber auch ungewöhnlich viele Prozessoren – andere Hersteller koppeln vier Beschleuniger an eine CPU beziehungsweise acht an zwei.

Das GB200-Board in den NVL72-Servern mit vier Blackwell-Beschleunigern, zwei Grace-CPUs, vier ConnectX-8-Karten für den Infiniband-Interconnect und einem Bluefield-Netzwerkprozessor. Die Nvlink-Switches sitzen in separaten Einschüben.

(Bild: Nvidia)

Die Leistung ist allerdings enorm: 131.072 Blackwell-Beschleuniger schaffen rein rechnerisch 5,9 Exaflops bei Gleitkomma-Operationen mit doppelter Genauigkeit (FP64). Das entspricht 5,9 Trillionen Rechenoperationen pro Sekunde. Der FP64-Wert wäre für die Top500-Liste der schnellsten Supercomputer relevant, würde Oracle Benchmarks für eine kommende Top500-Liste einreichen. Der aktuell gelistete Top500-Spitzenreiter, Frontier mit AMD-Hardware, schafft 1,7 Exaflops.

Oracle stellt bei seinem System die Leistung fürs Training von KI-Algorithmen heraus, bei der die Anforderungen an die Genauigkeit wesentlich geringer ist. Von 2,4 Zetaflops ist die Rede, also 2400 Exaflops. Diesen Wert erreichen die KI-Beschleuniger bei FP4-Operationen mit sogenannter Sparsity – Nullwerte werden dabei aus den Matrizen entfernt.

Zum Vergleich: Colossus verwendet rund 100.000 H100-Beschleuniger aus Nvidias vorangegangener Hopper-Generation. Sie kommen rechnerisch auf 3,4 FP64-Exaflops beziehungsweise 396 FP8-Exaflops. FP4 beherrscht diese Baureihe noch nicht.

Die enorme Rechenleistung hat allerdings ihren Preis: Nvidia spezifiziert jeden GB200 NVL72 mit einer elektrischen Leistungsaufnahme von 120 Kilowatt. Zusammen genommen benötigen die ganzen Grace-CPUs und B200-GPUs rechnerisch knapp 220 Megawatt. Hinzu kommt der noch mal höhere Energiebedarf für die Kühlung und das Netzwerk.

In der Analystenkonferenz zu den jüngsten Quartalszahlen sagte Oracles Technikchef Lawrence Ellison, dass die aktuellen Rechenzentren der Firma bis zu 800 MW ziehen (Transkript bei Seeking Alpha). Erste Gigawatt-Systeme seien in Planung – dazu könnte das angekündigte Blackwell-System gehören.

Ein großes Thema bleibt die Energiebeschaffung, weil solche Rechenzentren an die Grenzen der Lieferkapazitäten lokaler Stromanbieter gehen. Oracle will künftig einen drastischen Schritt beschreiten und auf kleine Atomkraftwerke (Small Modular Reactor, SMR) setzen.

Laut Ellison hat ein Energiepartner die Genehmigung zum Bau für drei solcher SMR erhalten. In einigen Jahren sollen sie manche der neu gebauten Rechenzentren mit Strom versorgen. Von bisherigen Bedenken und Rückziehern lässt sich Oracle offenbar nicht beirren.

Anders als Firmen wie OpenAI, Meta und xAI entwickelt Oracle keine eigenen KI-Modelle, an denen der gesamte Supercomputer rechnet. Stattdessen will die Firma Cloud-Rechenkapazität fürs KI-Training verkaufen – mit Instanzen von bis zu 72 B200-GPUs. Noch vor dem Blackwell-System stellt Oracle ein Rechenzentrum mit 65.536 H200-Beschleunigern fertig.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externer Preisvergleich (heise Preisvergleich) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (heise Preisvergleich) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

(mma)