AMD Server-CPU Epyc 9005: Erster Test bestätigt hohe Leistung und Effizienz

Mit bis zu 16 Zen-5-Compute-Chiplets und 192 Kernen im Epyc 9005 will AMD die Server-Leistungskrone zurückholen. Erste c't-Benchmarks bestätigen das zum Teil.

In Pocket speichern vorlesen Druckansicht 27 Kommentare lesen
Zwei Epyc Prozessoren auf einem Mainboards

(Bild: c't)

Lesezeit: 8 Min.
Inhaltsverzeichnis

Mit einer Modellpalette von 27 verschiedenen Serverprozessoren fällt der Startschuss für die fünfte Generation von AMDs Epyc-Serverprozessoren alias Turin. Sie passen grundsätzlich in die vom Vorgänger bekannte Fassung SP5, brauchen aber ein BIOS-Update und aufgrund gestiegener Thermal Design Power (TDP) laufen nicht alle Modelle in allen bestehenden Boards.

Mit dem Extrastrom, verdoppelter AVX512-Leistung, gestiegener Pro-MHz-Leistung durch die bekannte Zen-5-Architektur und bis zu 192 CPU-Kernen soll die Performancekrone fĂĽr Server mit zwei Prozessorfassungen wieder zu AMD zurĂĽckkehren, nachdem Intels Xeon 6980P die vorherige Epyc-Generation in einigen Benchmarks schlagen konnte.

Bei der Konfiguration bestätigen sich nahezu alle Vermutungen, die c't anhand der auf der Computex gezeigten Vorschau anstellte: Das I/O-Die ist identisch zu dem im Epyc 9004, die schnellen "Classic"-Kerne aus TSMCs 4-Nanometer-Fertigung gibt es maximal im 128er-Pack mit 16 CCDs à acht CPU-Kernen. Alles darüber ist automatisch der in 3-Nanometer-Technik von TSMC hergestellte Zen 5c. Dessen Kerne sind in 12 CCDs zu je 16 Kernen gebündelt und müssen pro Kern mit halb so viel Level-3-Cache auskommen. Außerdem haben sie niedrigere Taktraten – maximal 3,7 statt der 4,1 bis 5,0 Turbo-GHz –, sind aber ansonsten funktional identisch inklusive des vollen AVX512-Durchsatzes. Das konfigurierte AMD bei den mobilen APUs der Ryzen-AI-300-Reihe noch anders und auch Intel gönnt seinen E-Cores nicht das volle Featureset. Gegenüber der ersten AMD-Generation mit Zen-4c-Kernen "Bergamo" steigt der Takt der c-Cores um 600 MHz beziehungsweise rund 19 Prozent. Auch ist der L3-Cache der c-CCD-Dies nicht mehr in zwei Hälften unterteilt, deren angeschlossene CPUs jeweils nur per Umweg über das I/O-Die kommunizieren konnten.

Das GMI3-Chiplet-Interface kennt nun einen "Wide"-Modus, der bei Epyc-9005-Konfigurationen mit maximal acht Compute-Dies zweimal 32 Byte pro Taktzyklus an ein CCD schicken kann (read). Die Schreibrate bleibt bei nominell 16 Byte pro Takt, kann bei sehr einseitigen Lasten aber auf 25 Byte aufgebohrt werden. Außerdem beherrscht die Funktion DRAM Runtime Post-Package Repair nun auch größere x8-DIMMs anstatt nur x4-Riegel und kann als defekt erkannte Speicherzeilen stilllegen.

Trotz gleichen IO-Dies wie in Epyc 9004 stecken darin auch einige Neuerungen von Epyc 9005.

(Bild: AMD)

Die Modellpalette reicht vom 192-Kerner fĂĽr 14.813 US-Dollar bis hinunter zum 527 US-Dollar teuren 8-Kerner. Es gibt auch SpezialausfĂĽhrungen wie den frequenzoptimierten Epyc 9175F, der ĂĽber die vollen 512 MByte L3-Cache verfĂĽgt, aber nur einen einzigen aktiven Kern in jedem der 16 CCDs hat, die bis zu 5 GHz takten dĂĽrfen.

Derzeit fehlen im Portfolio noch Epycs 9005 mit 3D V-Cache. Unter den 27 vorgestellten Prozessoren sind fünf mit den kompakteren Zen-5c-Kernen, fünf für besonders hohe Frequenzen optimierte Modelle erkennbar am Zusatz "F" und vier Epycs mit dem Zusatz "P", die nur allein, also ohne zweite Fassung funktionieren. Die CPUs mit Zen-5c-Kernen versteckt AMD im Namensschema etwas, es handelt sich um die 9965, 9845, 9825, 9745 und 9645 – alle Details finden Sie in der Tabelle am Ende des Artikels.

AMD sieht die Epyc 9005 in klassischen SPEC-Aufgaben um bis zu 17 Prozent vor der Vorgängergeneration, bei KI und HPC schlägt noch die verdoppelte AVX512-Leistung ins Kontor und die Firma gibt bis zu 37 Prozent mehr Performance an. Die angestellten Vergleiche zur alten Intel-Generation Emerald Rapids mit höchstens 64 Kernen fallen naturgemäß eindeutig aus, haben die neuen Epycs doch bis zu dreimal so viele Kerne. Bei auf 64 begrenzter Kernzahl sieht man sich um bis zu 60 Prozent vor den älteren CPUs.

Wie Sie aus dem Titelbild dieses Artikels vielleicht schon geschlossen haben, befindet sich ein Epyc-9005-Referenzsystem "Volcano" bereits im c't-Labor. Es ist mit 1,5 TByte DDR5-6400R-Speicher ausgestattet, der allerdings gemäß AMDs Referenzvorgabe (s.u.) auf 6000 MT/s gedrosselt ist. Passend dazu haben wir drei Prozessorpärchen zum Test erhalten, den Sie in einer der kommenden c’t-Ausgaben und auf heise online lesen können.

Ein paar Vorabeindrücke gibt’s aber auch hier schon. Beim theoretischen Rechendurchsatz der Vektoreinheiten und beim sehr gut parallelisierbaren 3D-Rendering mit Blender liegen sie deutlich vor Intels Xeon 6980P. So maßen wir beim Dual-Xeon mit je 128 P-Kernen bis zu 23,6 TFlops im doppeltgenauen AVX512-Fused Multiply-Add-Betrieb. Die Epyc 9755 mit den Classic-Kernen schafften mit 26,3 TFlops bei identischer TDP von 500 Watt rund 11 Prozent mehr Durchsatz. Die beiden Epyc 9965 lagen mit 32,8 TFlops rund ein Drittel darüber und bewiesen damit die hohe mögliche Effizienz von AMDs Zen-5-Kompaktkernen.

In der Blender-Szene Lone Monk dauerte das Rendern am Ende 88 Sekunden mit den Epyc 9965. 100 Sekunden waren es bei den Epyc 9755 mit je 128 Kernen und 132 Sekunden bei den Xeon 6980P mit ebenfalls je 128 Kernen.

Bei der Speichertransferrate sind die Epycs mit ihren zwölf DDR5-6000-Kanälen den ebenso vielen MCDIMMs, die der Xeon mit 8800 MT/s betreibt, aber unterlegen. In der Stream-Triad-ähnlichen Messung des MLC 3.11a lagen die Epyc-Pärchen knapp unter 900 GByte/s, während die Intel-Plattform knapp über 1200 GByte/s erreichte. Auch bei den Idle-Speicherlatenzen schnitten die Xeon besser ab.

Entsprechend knapp wird es auch in gemischten Workloads, in denen die Transferrate eine größere Rolle spielt. Hier muss AMD auf die besseren Latenzen zwischen den CPU-Fassungen bauen, die in manchen Fällen einen Teil des Transferratennachteils wieder ausgleichen können.

Beim Kompilieren des Linux-Kernels inklusive Modulen (Option -m) mit GCC 14 setzten sich die Epycs locker vor die Xeons, wobei die 128 Classic- noch vor den 192 Kompaktkernen lagen (141 zu 187 Sekunden). Die Xeons brauchten 203 Sekunden. Mit dem Clang-Kompiler v18 waren es 132, 165 und 190 Sekunden (in gleicher Reihenfolge). Der Abstand zwischen den Epycs sinkt – Clang scheint die Kernflut also besser auszulasten als GCC.

Beim Numbercruncher y-Cruncher, der außer intensivem AVX512-Gebrauch auch reichlich Speichertransferrate sehen will, liegen die Xeon 6980P allerdings deutlich in Front. Bei der Messung mit 100 Milliarden Nachkommastellen der Kreiszahl Pi brauchen die Epycs 94 beziehungsweise 87 Prozent länger. Auch die lemniskatische Konstante, die sich als eine von mehreren mathematischen Konstanten ebenfalls mit y-Cruncher annähern lässt, zeigt ein ähnliches, aber nicht ganz so ausgeprägtes Verhalten.

Stellte AMD die Epyc 9005 auf der Computex noch mit DDR5-6000-Unterstützung vor, findet sich an gleicher Stelle nun DDR5-6400, allerdings mit einem Sternchen. AMD validiert auf Kundenwunsch die Plattformen auch für die schnellere DDR5-Variante, zumal passender Speicher JEDEC-kompatibel, das heißt in Form nicht übertakteter RDIMMs, bereits gut verfügbar ist. Die Referenzvorgabe bleibt allerdings bei DDR5-6000, so wie auch unser Testsystem konfiguriert war. Für den ausführlichen Test werden wir probieren, ob unser System die höhere Frequenz auch stabil mitmacht und wie viel Extra-Performance das ausmacht.

Disclaimer: AMD hat Anreise- und Unterkunftskosten des Autors zur Veranstaltung "Advancing AI 2024" ĂĽbernommen.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externer Preisvergleich (heise Preisvergleich) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (heise Preisvergleich) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Übersicht: AMD Epyc 9005 „Turin“
Modell Kerne Basis-/Boost-Takt (GHz) TDP (Watt) cTDP (Watt) L3-Cache (MByte) L3-Cache/core (MByte) UVP (US-$)
9965* 192 2,25 / 3,7 500 450-500 384 2,0 14813
9845* 160 2,1 / 3,7 390 320-400 320 2,0 13564
9825* 144 2,2 / 3,7 390 320-400 384 2,7 13006
9755 128 2,7 / 4,1 500 450-500 512 4,0 12984
9745* 128 2,4 / 3,7 400 320-400 256 2,0 12141
9655 96 2,6 / 4,5 400 320-400 384 4,0 11852
9645* 96 2,3 / 3,7 320 320-400 256 2,7 11048
9565 72 3,15 / 4,3 400 320-400 384 5,3 10486
9555 64 3,2 / 4,4 360 320-400 256 4,0 9826
9535 64 2,4 / 4,3 300 240-300 256 4,0 8992
9455 48 3,15 / 4,4 300 240-300 256 5,3 5412
9365 36 3,4 / 4,3 300 240-300 192 5,3 4341
9355 32 3,55 / 4,4 280 240-300 256 8,0 3694
9335 32 3,0 / 4,4 210 200-240 128 4,0 3178
9255 24 3,25 / 4,3 200 200-240 128 5,3 2495
9135 16 3,65 / 4,3 200 200-240 64 4,0 1214
9115 16 2,6 / 4,1 125 120-195 64 4,0 726
9015 8 3,6 / 4,1 125 120-195 64 8,0 527
9575F 64 3,3 / 5,0 400 320-400 256 4,0 11791
9475F 48 3,65 / 4,8 400 320-400 256 5,3 7592
9375F 32 3,8 / 4,8 320 320-400 256 8,0 5306
9275F 24 4,1 / 4,8 320 320-400 256 10,7 3439
9175F 16 4,2 / 5,0 320 320-400 512 32,0 4256
9655P 96 2,6 / 4,5 400 320-400 384 4,0 10811
9555P 64 3,2 / 4,4 360 320-400 256 4,0 7983
9455P 48 3,15 / 4,4 300 240-300 256 5,3 4819
9355P 32 3,55 / 4,4 280 240-300 256 8,0 2998
* Zen5c-CCDs, F = frequenzoptimiert, P = nur 1-Fassung-Betrieb

(csp)