CES

DGX Vera Rubin: Nvidia zeigt nächste KI-Server-Generation mit hauseigener CPU

Nvidia-Chef Jensen Huang gab auf der CES einen Ausblick auf den kommende KI-Server DGX Vera Rubin mit hauseigenen ARM-Prozessorkernen und neuer GPU-Architektur.

vorlesen Druckansicht 5 Kommentare lesen

(Bild: Florian MĂĽssig / heise medien)

Lesezeit: 4 Min.
Inhaltsverzeichnis
close notice

This article is also available in English. It was translated with technical assistance and editorially reviewed before publication.

Auf seiner CES-Keynote hat Nvidia seine nächste KI-Servergeneration DGX Vera Rubin enthüllt. Sie setzt sich aus sechs spezifischen Chips zusammen, die allesamt bereits in Nvidias Laboren laufen. Der Marktstart fertiger Systeme soll aber erst in der zweiten Jahreshälfte 2026 erfolgen.

Herzstück der Server ist Nvidias neue GPU-Architektur Rubin. Sie folgt auf Blackwell, welche in allen aktuellen Produkten von GB200 über DGX Spark bis GeForce RTX 5000 zum Einsatz kommt. Details zur neuen Architektur hatte Nvidia-Chef Jensen Huang nicht im Gepäck, sondern nur ausgewählte Kennzahlen: Rubin soll 50 Petaflops im hauseigenen Datenformat NVFP4 wegwuppen, was Faktor 5 gegenüber Blackwell entspricht.

Ein paar mehr Details gab es zum ARM-Prozessor Vera. Dieser verwendet anders als der Vorgänger Grace keine Neoverse-Kerne von der Stange, sondern selbst entwickelte Olympus-Kerne. Von diesen stecken 88 im Prozessor, die 176 Threads parallel abarbeiten. Hierbei kommt kein herkömmliches SMT zum Einsatz, sondern etwas, das Nvidia „Spatial Multi-Threading“ nennt. Dem Vernehmen nach werden ankommende Threads dabei schlicht alternierend auf die internen Ports verteilt. Da Nvidia Open-Source-Compilern bereits seit 2025 CPU-Interna zuarbeitet, ist bekannt, dass Vera den Befehlssatz ARM V9.2 unterstützen wird. Unseren Infos zufolge steht die offizielle Zertifizierung darüber bei IP-Hüter ARM aber noch aus.

(Bild: Florian Müssig / heise medien)

Im Mittel soll Vera Rubin mit einem Viertel an GPUs dieselbe Rechenleistung wie der Vorgänger GB200 (Grace Blackwell) abliefern; die Kosten pro Token sollen sogar nur ein Siebtel betragen. Tiefergehende Details zu Vera und Rubin und deren konkreten Implementationen dürfte sich Nvidia für Präsentationen auf der Hausmesse GTC aufheben, die im März ansteht.

Zum KI-Server DGX Vera Rubin gehören wiederum mehr als diese beiden Chips. Sie sind untereinander mittels NVLink 6 verbunden, wobei ein NVLink-Einschub gleich vier solcher Switch-Chips enthält, um Dutzende GPUs miteinander zu verbinden. Im vorgesehenen Verbund, der wie gehabt NVL72 heißt (die vormals angedachte neue Benennung als NVL144 hat Nvidia wieder verworfen), sind schließlich 72 GPUs zu einem gemeinsamen Rechenwerk zusammengeschaltet.

Um die Verbindung nach auĂźen kĂĽmmern sich die neuen hauseigenen Netzwerkkarten Connect-X 9, Bluefield 4 oder auch Spectrum-X. Letztere verwendet Silicon Photonics, also eine optische Glasfaseranbindung direkt bis zum Die des Netzwerkchips.

(Bild: Florian Müssig / heise medien)

Nvidia will mit DGX Vera Rubin als dritter NVL72-Zusammenstellung aber nicht nur die Rechenleistung steigern, sondern auch den Technikern in Rechenzentren die Arbeit erleichtern. Dafür verzichtet Nvidia komplett auf Kabel, die bei Wartungsarbeiten im Weg wären. Obendrein lassen sich fehlerhafte Komponenten im laufenden Betrieb wechseln, während das System an sich weiterläuft. All das führt zu einer massiven Zeitersparnis im Fehlerfall: Laut Nvidia lässt sich ein NVLink-Tray nun in gerade einmal sechs Minuten tauschen – am Vorgänger habe dieselbe Arbeit noch 100 Minuten gedauert.

Videos by heise

Schließlich geht DGX Vera Rubin das Problem an, dass der Kontext, in dem KI-Modelle im Praxiseinsatz (Inferencing) laufen, immer größer wird und die Bandbreite zum Storage-Subsystem längst einen Flaschenhals darstellt. Die neue DGX-Generation bringt deshalb eine Zwischenschicht mit dem sprechenden Namen Inferencing Context Memory Storage Platform mit, die mittels Spectrum-X SSDs besonders rasant an die Rechenknoten anbindet. Damit können die eigentlichen Rechenwerke bis zu 20-mal schneller auf benötigte Daten zugreifen.

Auf der Software-Seite stellte Jensen Huang neue Open-Source-Modelle in Aussicht. Für Nemotron, Cosmos und Groot stehen neuen Versionen an und mit Alpamayo sogar ein gänzlich neues Modell. Alpamayo ist ein Reasoning-Modell für autonome Fahrzeuge, damit diese gemäß Level-4-Definition auch unerwartete Situationen bewältigen können, für die sie nicht explizit trainiert wurden. Als Beispiel nannte Nvidia den Ausfall von Ampeln – just so etwas hat kürzlich die autonome Flotte von Waymo in San Francisco lahmgelegt.

(Bild: Florian Müssig / heise medien)

heise medien ist offizieller Medienpartner der CES 2026.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externer Preisvergleich (heise Preisvergleich) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (heise Preisvergleich) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

(mue)