Intel Xeon 6: Volldampf mit 128 schnellen Kernen

Mit bis zu 128 Performance-Kernen soll Intels Xeon 6900P ab sofort die Leistungslücke zu AMDs Epyc-CPUs schließen. Erste Messwerte stimmen optimistisch.

In Pocket speichern vorlesen Druckansicht 4 Kommentare lesen
Renderbild von Intels Xeon 6 von vorn und hinten

Die Xeon 6900P sind die ersten Prozessoren für Intels Riesenfassung LGA7529.

(Bild: Intel)

Lesezeit: 8 Min.

Pünktlich zum avisierten 24. September fällt der Startschuss für Intels Serverprozessoren Xeon 6900P. Anders als beim Konkurrenten AMD Epyc steht das P beim Xeon 6 für die schnellen Performance-Kerne, nicht für 1-Sockel-Systeme. Fünf Modelle mit 72 bis maximal 128 Kernen rollen an den Start und lassen sich in Zwei-Sockel-Systemen kombinieren. Sie sollen sich dank besonders schnellem Speicher mit MRDIMM-Technik (auch MCR-DIMMs genannt) und dank ihren Advanced-Matrix-Extensions (AMX) besser als AMDs Epyc für KI-Berechnungen eignen. Zusammen mit den heute ebenfalls in den Markt startenden Gaudi-3-KI-Beschleunigern sollen das die Säulen von Intels Portfolio für (KI-)Rechenzentren bilden.

Einem Dual-Xeon-6980P konnten wir per Fernzugriff in Intels Laboren schon vorab ein bisschen auf den Zahn fühlen und haben direkt ein paar Benchmark-Rekorde für das c't-Labor eingefahren (dazu unten mehr). Doch Intels Freude könnte nur von kurzer Dauer sein, denn AMD löst bald die Epyc-Prozessoren der vierten Generation ab.

Mit Xeon 6E, Xeon 6P und Gaudi 3 will Intel im wesentlichen den Bedarf im Rechenzentrum abdecken.

(Bild: Intel)

Dank Chiplet-Technik, die Intel nach anfänglichem Missfallen seit ein paar Jahren auch einzusetzen pflegt, sind auf dem riesigen CPU-Träger (Package) nun drei Compute-Dies ("UCC") und zwei IO-Chips vereint. Das genügt für bis zu 128 Performance-Kerne pro Prozessor, nachdem die ersten Xeon-6-Modelle mit Effizienzkernen nur die deutlich schwächeren E-Cores in Feld geführt hatten, davon aber immerhin 144 auf einem Chip und bis zu 288 insgesamt.

Ein Blick unter Intels Xeon 6900P: Die drei Chiplets in der Mitte enthalten die CPU-Kerne, die zwei Dies außen die I/O-Funktionen.

(Bild: Intel)

Die Compute-Dies werden im "Intel 3"-Prozess gefertigt. Dabei handelt es sich um eine in Sachen Leistung und Effizienz verbesserte Variante von Intels letztem 7-Nanometer-Prozess Intel 4, bevor dann 2025 mit Intel 18A endlich wieder auf die Überholspur abgebogen werden soll. Zwei I/O-Dies flankieren die Compute-Chiplets. In ihnen sitzen unter anderem 96 PCIe-5.0-Lanes, 6 UPI-Links zur Verbindung mehrerer Prozessoren und die aus den Vorgängergenerationen bekannten vier Beschleuniger DSA, IAA, QAT und DLB (siehe Tabelle). Anders als in den Xeon 6700E sind sämtliche Beschleuniger in allen fünf Xeon-6900P-Modellen aktiviert.

Die Compute Dies der Xeon 6900P werden im Fertigungsprozess "Intel 3" hergestellt. Wer nachzählt, findet im XCC-Chip 44 Prozessorkerne.

(Bild: Intel)

Wer sich nun wundert, wie man mit drei Chips auf 128 Kerne kommt: Yield-Optimierung. Jedes der drei Compute-Dies ("XCC", eXtreme Core Count) verfügt über 44 Kerne, bei zweien sind davon nur 43 aktiv, bei einem 42. So kann Intel auch Silizium-Dies mit einem Defekt in einem (oder sogar zweien) der Kerne selbst im dicksten 6900P-Modell verkaufen. Auch die kleinsten Modelle wie 6960P und 6952P haben übrigens drei Compute-Dies. Denn auch wenn für die reine Kernzahl beim 6960P auch zwei Chips genügten, fielen sonst zu viel Level-3-Cache und vor allem vier der zwölf Speicherkanäle weg.

Die Xeon 6900P passen nur in die größere der beiden Xeon-6-Fassungen LGA7529. Die 6900er-Reihe darf bis zu 500 Watt schlucken und tut das mit Ausnahme des 6952P (400 Watt) auch. Mit maximal zwölf Speicherkanälen (DDR5-6400) und optionaler Unterstützung von Multiplexed-Rank DIMMs (MRDIMM) mit 8800 MT/s liegt die Speichertransferrate maximal bei satten 845 GByte pro Sekunde und Prozessor. In einem 2P-System summiert sich das auf über 1,6 TByte pro Sekunde.

Übersicht: Intel Xeon 6900P
Modell Kerne TDP L3-Cache Takt (Basis (Turbo Allcore / Max)
6980P 128 500 Watt 504 MByte 2,0 (3,2 / 3,9) GHz
6979P 120 500 Watt 504 MByte 2,1 (3,2 / 3,9) GHz
6972P 96 500 Watt 480 MByte 2,4 (3,5 / 3,9) GHz
6952P 96 400 Watt 480 MByte 2,1 (3,2 / 3,9) GHz
6960P 72 500 Watt 432 MByte 2,7 (3,8 / 3,9) GHz
Alle: max. 2-Fassung-Systeme, HTT, 12 x DDR5-6400/MRDIMM-8800, DLB/DSA/IAA/QAT 4/4/4/4, 6 UPI-Links, 96 x PCIe 5.0

Weil es für Nicht-US-Journalisten keinen Vorab-Workshop gab, der eigentlich im Umfeld der abgesagten Intel Innovation 2024 hätte stattfinden sollen, gewährte uns Intel freundlicherweise Remote-Zugriff auf ein Mustersystem im Labor. Das war mit zwei Xeon 6980P und 1,5 TByte DDR5-8800 in Form von MRDIMMs ausgestattet. Als Betriebssystem wünschten wir uns Ubuntu-Server 24.04 LTS (und bekamen das auch). Die Hardware war also schon nahe am Plattform-Maximum.

Hierauf durften wir (beinahe, BMC-Zugriff gab es aus Sicherheitsgründen nicht) nach Herzenslust ein paar Messungen vorab durchführen, um einen ersten Eindruck zu gewinnen. Neben einigen Low-Level-Messungen interessierte uns natürlich auch besonders der rasend schnelle Arbeitsspeicher.

Wohl auch dem großzügigen Powerbudget von 500 Watt pro CPU geschuldet, lagen die Taktraten selbst mit hoher AVX512-Last noch bei 2,15 GHz, meistens sogar im Bereich von 2,3 bis 2,6 GHz. Frühere Xeon-Prozessoren takteten bei voller Beanspruchung zum Teil deutlich unter 2 GHz. Die erzielbare Rechenleistung lag dank der beiden AVX512-Einheiten pro Kern bei 23,59 Billionen doppeltgenauer Rechenschritte pro Sekunde für das Prozessorduo – pro Stück also bei knapp 11,8 TFLOPS in FP64-Genauigkeit. Zum Vergleich: Der bisher schnellste AMDs Epyc 9654 (pro Stück mit 96 Kernen, 360 Watt und AVX512-on-256, also halbem Durchsatz) schaffte als Duo knapp 10 TFLOPS.

Beim Kompilieren des Linux-Kernels 6.9.12 inklusive Modulen mit GCC 14 waren die beiden Xeon 6980P 27 Sekunden schneller fertig als das Epyc-Duo 9654. Dieselbe Zeitdifferenz stand bei Clang-18 im Logfile, prozentual war der Abstand allerdings etwas größer, da die Epycs mit dem anderen Compiler nur 217 statt 230 Sekunden brauchten. Auch im 3D-Rendering-Programm Blender rechneten die Xeons mit 132 Sekunden für ein Bild der aufwendigen Szene "Lone Monk" deutlich flotter als die Epycs mit 181 Sekunden.

Ebenso erfüllte Intels Xeon beim Speicherdurchsatz die hohen Erwartungen, die die Konfiguration mit DDR5-8800-MRDIMMs geweckt hatte. Im MLC-Benchmark mit Stream-Triad-ähnlichem Zugriffsmuster maßen wir satte 1,21 TByte/s. Im All-Read-Benchmarks blieb das System mit rund 1,51 TByte/s nur knapp unter der theoretischen Transferrate von 1,69 TByte/s. Der ebenfalls über 12 Speicherkanäle verfügende Epyc 9654 erreichte das mit 704 beziehungsweise 745 GByte/s zweitschnellste Ergebnis aller bisher von uns getesteten Serverprozessoren.

Über ein etwas kurioses Resultat stolperten wir beim Kompressionsprogramm 7-Zip. Hier lag der Kompressionsdurchsatz mit 591 MByte/s enttäuschend niedrig – zum Vergleich: Das Epyc-System knackte die 700-MB/s-Marke und auch der Xeon Platinum 8490H (2 × 60 Kerne) lag mit 520 MByte/s nicht weit zurück. Unsere Vermutung: Es lag an der Werkseinstellung, mit der Intel das NUMA-System konfiguriert. Anstatt eine Speicherdomäne pro CPU-Fassung einzurichten, kommen Xeon 6900P werkseitig mit einem NUMA-Node pro Compute-Die – in dem ja auch die jeweils vier Speichercontroller residieren. Für Anwendungen, die mit NUMA-Systemen umgehen können – sogenannte NUMA-aware Software – ist das gut, denn die Latenzen liegen dann niedriger.

Der NUMA- oder Clustering-Mode "SNC3" bietet gegenüber "Hex" niedrigere Speicherlatenzen.

(Bild: Intel)

Das Numbercrunching-Programm y-Cruncher zum Beispiel erzielte ebenfalls Bestwerte, weil es auf hohe AVX512- und Speicherleistung angewiesen ist. Es muss von Haus aus gut mit NUMA-Systemen umgehen können, denn interessante Problemgrößen belegen hier gern hunderte von GByte. Unser Testszenario reicht bis zu 250 Milliarden Nachkommastellen der Kreiszahl Pi und 100 Milliarden der Lemniskatischen Konstante und belegt bis zu 1,09 TByte Speicher.

Interessantes Detail: Da es noch keine für den Xeon 6900P aka Granite Rapids optimierte y-Cruncher-Version gab, probierten wir ein wenig herum. Es stellte sich heraus, dass bei größeren Mengen an Nachkommastellen die auf AMDs Zen 5 optimierte Binary schneller war als die letzte für Intel-Prozessoren mit AVX512.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externer Preisvergleich (heise Preisvergleich) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (heise Preisvergleich) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

(csp)