c't 12/2021
S. 82
Test & Beratung
Serverprozessoren

Cloud-Antriebe

AMD Epyc 7003 „Milan“ und Intel Xeon-SP Gen 3 „Ice Lake“ für Server

Endlich schickt Intel die ersten Xeon-Serverprozessoren mit 10-Nanometer-Technik ins ­Rennen – und ins c’t-Labor. Dort treffen sie auf die ebenfalls neuen AMD-Epyc-CPUs der ­dritten Generation und ­sollen AMD die Performance-­Krone wieder entreißen.

Von Carsten Spille, Andreas Stiller und Christof Windeck

Obwohl der erste AMD Epyc vor mehr als drei Jahren erschien und nun in dritter Generation „Milan“ vorliegt, dominieren Xeons von Intel weiterhin den Markt der Serverprozessoren. Allerdings mussten die „Xeon Scalable Processors“ (Xeon-SP) Federn lassen, Preise und Umsatz sanken zuletzt erheblich. Die jüngste Xeon-SP-Generation „Ice Lake“ mit 10-­­Nanometer-Technik – die eigentlich schon Jahre früher geplant war – soll jetzt den eklatanten Rückstand auf den 64-Kerner Epyc verkürzen: Die neuen Xeons haben immerhin bis zu 40 statt bloß 28 CPU-Kerne und ziehen beim PCI-Express-Standard (mit PCIe 4.0 statt zuvor 3.0) und RAM (mit acht statt sechs Speicherkanälen) mit den Epycs gleich. AMD hat den Epyc in der dritten Generation mit Zen-3-Mikroarchitektur auch verbessert. Wir nehmen die Kontrahenten unter die Benchmark-Lupe und beschreiben ihre jeweiligen Besonderheiten.

Die dritte Epyc-Generation namens Milan passt in dieselbe SP3-Fassung wie ihre Vorgänger Rome und Naples.

Deutliche Optimierungen

Beim Epyc ist der Schritt von der Zen-2-Generation (7002, Rome) zu Zen 3 nicht sehr groß, aber bedeutend: Epyc-7003-CPUs laufen in denselben Servern und Mainboards wie ihre Vorgänger, sofern der jeweilige Hersteller ein BIOS-Update bereitstellt. Es bleibt folglich bei der Fassung SP3 (siehe Tabelle auf S. 85) sowie bei je acht RAM-Kanälen und 128 PCIe-4.0-Lanes pro CPU, wovon die Hälfte in einem Zwei-Socket-(2S-)System zur Anbindung des zweiten Prozessors dient. Auch die Anzahl der Kerne sowie die Cache-Kapazitäten änderten sich nicht.

AMD hat allerdings die Rechenkerne und den Aufbau der sogenannten Core Complexes (CCX) geschickt optimiert, genau wie beim schon im Herbst 2020 vorgestellten Ryzen 5000 [1, 2]. Im Vergleich zum Vorgänger verkürzte AMD vor allem Latenzen, unter anderem durch bessere Anbindung des weiterhin 32 MByte fassenden Level-3-(L3-)Caches, auf dessen volle Kapazität jetzt auch ein einzelner Kern direkt zugreifen kann. Auch Sprungvorhersage und Speicherdurchsatz wurden verbessert. Je nach Code verarbeitet ein Zen-3-Kern rund 10 bis 20 Prozent mehr Instruktionen pro Taktschritt (Instructions per Cycle, IPC) als die Kerne im Zen 2. Zudem bringt AMD mehr Epyc-Versionen mit 240 und 280 Watt Thermal Design Power (TDP); diese takten im Schnitt höher als ihre 225-Watt-Vorgänger, wenn das jeweilige Server-Mainboard genug Strom liefert und die Kühlung mitspielt. Außerdem bietet AMD einige Epyc-„F“-Versionen mit weniger Kernen an, aber mit besonders hohem Turbo-Takt und vollem Cache-Ausbau. Sie eignen sich besonders für Software, bei der man Lizenzen pro CPU-Kern bezahlt, sowie für Anwendungen, bei denen es auf niedrigste Latenz ankommt.

AMD setzt weiterhin auf ein „Chiplet“-Design, kombiniert also mehrere ­Silizium-Dies zu einem Prozessor. Es bleibt bei acht CCX-Dies (CCDs) mit je acht CPU-Kernen, die der Auftragsfertiger TSMC mit 7-Nanometer-Technik herstellt. Die Anbindung von RAM, PCI Express, SATA, USB und anderer I/O-Funktionen erledigt das I/O-Die, welches nach wie vor Globalfoundries mit alter 12-Nano­meter-Technik produziert. Beim I/O-Die gab es lediglich kleinere Updates von Sicherheitsfunktionen.

Xeon-Zeitenwechsel

Der Ice-Lake-Xeon bringt im Vergleich zu seinem direkten Vorgänger „Cascade Lake“ geradezu umwälzende Neuerungen. Intel wechselt nicht nur von 14- auf 10-­Nanometer-Fertigung, die 42 Prozent mehr Kerne im Prozessor ermöglicht. Es gibt auch komplett überarbeitete „Sunny ­Cove“-Rechenkerne mit neuen Funktionen, PCI Express 4.0 statt PCIe 3.0, 64 statt 48 PCIe-Lanes sowie acht statt sechs RAM-­Kanäle. Die vielen zusätzlichen Anschlüsse erfordern die neue Fassung LGA4189, also auch neue Mainboards. Zudem schreibt AMD beim billigsten Milan-Epyc 7313P (16 Kerne) 913 US-Dollar in die Preisliste, während es bei Intel mit dem Xeon Silver 4309Y (8 Kerne) schon bei 500 US-Dollar losgeht – auch das ein Novum.

Die ersten 10-Nanometer-Xeons haben komplett überarbeitete ­Rechenkerne und brauchen neue Mainboards mit der Fassung LGA4189.

Für Sunny Cove verspricht Intel im Schnitt 20 Prozent mehr Rechenleistung pro Taktzyklus als beim Vorgänger Cas­cade Lake. Allerdings bleiben Ice-Lake-Xeons auch rund 20 Prozent unter den Turbo-Takten von Cascade Lake (maximal 3,7 statt bis zu 4,5 GHz). Doch weil es nun viel mehr Kerne gibt – übrigens durchweg auch mehr Kerne pro Euro als bei den Vorgängern –, steigt die Rechenleistung pro physischem Prozessor stark an.

Dass Ice-Lake-Technik nicht die hohen Takte der Vorgänger schafft, zeigte sich war schon 2019 bei Mobilprozessoren der zehnten Core-i-Generation so. Bei diesen wechselte Intel aber mittlerweile zur elften Generation „Tiger Lake“ mit weiter optimierten „Willow Cove“-Kernen, die über 4,5 GHz schaffen. Ähnliche Kerne kommen wohl in den für 2022 ­angekündigten Xeons der Generation „Sapphire Rapids“ zum Einsatz, die auch DDR5-RAM und PCI Express 5.0 unterstützen – und wieder eine neue CPU-Fassung erfordern, vermutlich LGA4677.

Die aktuellen Ice-Lake-Xeons der dritten Generation (Gen 3) sind also eine Art Zwischengeneration. Das zeigt sich auch an der verwirrenden Unterteilung der Marktsegmente: Es gab schon zuvor Gen-3-Xeon-SPs. Diese „Cooper Lake“-­Typen entstammen noch der 14-Nanometer-Fertigung und sind für Server mit vier und mehr Prozessoren gedacht. In der Typenliste erkennt man sie jeweils an einem nachgestellten „H“, also etwa Xeon Platinum 8380H statt 8380. Im Umkehrschluss zielen die neuen Ice-Lake-Xeon-SP – genau wie die Epycs – auf Server mit einer oder zwei CPU-Fassungen (Sockets) und es gibt – ebenfalls wie bei den Epycs – billigere Versionen nur für den Einzelbetrieb („U“-Typen, bei Epyc: „P“).

Spezialfunktionen

Epyc und Xeon-SP beherrschen jeweils exklusive Funktionen für besondere Einsatzzwecke. Der Epyc bietet etwa Secure ­Encrypted Virtualization (SEV), um die separaten Speicheradressbereiche parallel laufender virtueller Maschinen (VMs) jeweils unterschiedlich zu verschlüsseln. Das dient einerseits dem sogenannten Confidential Computing in der Cloud, bei dem nicht einmal mehr ein Administrator mit Root-Rechten den Inhalt des RAM aus­spähen kann. Andererseits lässt SEV Seitenkanalangriffe wie Spectre ins Leere laufen, bei dem Malware in einer VM versucht, Daten aus einer anderen VM zu ergattern. SEV lässt sich unter anderem mit dem Hypervisor VMware ESXi nutzen, künftig sogar in der „Encrypted State“-Version (SEV-ES), die selbst dem Hypervisor (alias VM Monitor) den Blick in den VM-Speicher verwehrt.

Generationsvergleich: AMD Epyc und Intel Xeon
Prozessor AMD Epyc Intel Xeon-SP
7002 (Rome) 7003 (Milan) Gen 2 (Cascade Lake) Gen 3 (Ice Lake)
Fertigungstechnik TSMC 7 nm TSMC 7 nm Intel 14 nm Intel 10 nm
Kern-Generation Zen 2 Zen 3 (Skylake) Sunny Cove
Kerne / Threads max. 64 / 128 64 / 128 28 / 56 40 / 80
L1D-Cache 32 KByte 32 KByte 32 KByte 48 KByte
L2 pro Kern (gesamt max.) 0,5 (32) MByte 0,5 (32) MByte 1,0 (28) MByte 1,25 (50) MByte
L3-Cache maximal 256 MByte 256 MByte 38,5 MByte 60 MByte
RAM-Kanäle / Socket 8 × DDR4-3200 8 × DDR4-3200 6 × DDR4-2933 8 × DDR4-3200
max. RAM / Socket 4 TByte 4 TByte 3 TByte 4 TByte
max. Optane / Socket 3 TByte 4 TByte
max. RAM+Optane / Socket 4 TByte 4 TByte 4,5 TByte 6 TByte
PCI Express 128 Lanes PCIe 4.0 128 Lanes PCIe 4.0 48 Lanes PCIe 3.0 64 Lanes PCIe 4.0
PCIe-Lanes bei zwei Sockets 128 Lanes PCIe 4.0 128 Lanes PCIe 4.0 96 Lanes PCIe 3.0 128 Lanes PCIe 4.0
AVX-Einheiten pro Kern 2 × AVX-2 2 × AVX-2 1 oder 2 × AVX-512 2 × AVX-512
Confidential Computing SEV-ES SEV-ES TME, SGX
max. Anzahl Sockets 2 2 4 und mehr 21
1 für Server mit vier und mehr Fassungen empfiehlt Intel Cooper Lake (14 nm)

Der Ice-Lake-Xeon beherrscht nur die transparente RAM-Vollverschlüsselung Total Memory Encryption (TME), die den gesamten Speicher mit demselben Schlüssel schützt. Ursprünglich hatte Intel auch Multi-Key-TME (MK-TME) angekündigt, analog zu AMD SEV. Doch die neuen Xeons haben Software Guard Extensions (SGX), um für sensible Daten auf Cloud-­Servern verschlüsselte Enklaven im RAM einzurichten, genannt Trusted Execution Environment. Die jeweiligen Keys für die RAM-Verschlüsselung verwahrt bei AMD der Secure Processor, oft Platform Security Processor (PSP) genannt, und bei Intel die Converged Security and Management Engine (CSME).

Der Epyc kann zudem PCIe-Lanes für die Cache-kohärente Anbindung der hauseigenen Rechenbeschleuniger Radeon Instinct MI umschalten und so den Speicherzugriff vereinheitlichen, das nennt AMD Infinity Architecture. Bei Intel soll das erst mit Sapphire Rapids und PCIe 5.0 als Compute Express Link (CXL) kommen. Ob solche Funktionen abseits von Supercomputern weite Verbreitung finden, bleibt abzuwarten.

Eine Besonderheit der Xeons ist, dass sie nichtflüchtige Optane-Speichermodule ansteuern können. Sie passen in dieselben ­Speicher­fassungen wie DDR4-Riegel, arbeiten aber ­völlig anders.

Ein in der Theorie erheblicher, aber in der Praxis selten nutzbarer Vorteil der Xeons sind ihre zwei AVX-512-Rechen­werke pro Kern. Diese verarbeiten pro Taktschritt doppelt so viele Daten wie die je zwei AVX-2-Einheiten pro Epyc-Kern. Und Intel hat den AVX-512-Einheiten neue KI-Tricks beigebracht, nämlich Vector Neural Network Instructions (VNNI) und Deep Learning Boost (DL Boost). Läuft Software mit AVX-512-Code, können Ice-Lake-Xeons deshalb an Epycs mit viel mehr Kernen vorbeiziehen. Doch erstens ist AVX-512-Code eher selten, zweitens haben die Epycs mehr Kerne, drittens takten sie oft höher als die Xeons und viertens setzt man für High Performance Computing (HPC) und KI-Algorithmen häufig Rechenbeschleuniger ein. Wie die AVX-512-Zukunft aussieht, ist offen, weil Intel selbst bald eine Eweiterung namens ­Advanced Matrix Extensions (AMX) einbauen will, die breite AVX-Einheiten oft überflüssig macht. Solche Rechenwerke sollen Programmierer dank Intels OneAPI angeblich leicht nutzen können.

Die AVX-512-Einheiten der Ice-Lake-Xeons können zudem einige Algorithmen zur Ver- und Entschlüsselung deutlich schneller verarbeiten, etwa AES und ECDHE.

Ausschließlich mit Xeons lassen sich Intels nichtflüchtige Speichermodule mit sehr hoher Kapazität nutzen, genannt Optane DC Persistent Memory. Die Ice Lakes brauchen die neue Version Pmem 200 alias Barlow Pass (Pmem 100: Apache Pass), die es als Speicherriegel mit je 128, 256 oder 512 GByte Kapazität gibt. Optane ist langsamer als DRAM, aber pro Gigabyte billiger, hingegen teurer als NVMe-SSDs, aber viel schneller. Als Kombination aus DDR4- und Pmem-200-Modulen sind bis zu 12 TByte Speicher in einem Dual-Xeon-­Server möglich. Optane-Speicher lässt sich einerseits als billiger RAM-Ersatz nutzen und andererseits für Spezialfunktionen von Datenbank- und Storage-Servern.

Benchmark-Parade

AMD und Intel schickten jeweils Pärchen ihrer Server-Spitzenreiter ins c’t-Labor, also je zwei Epyc 7763 (64 Kerne, 2,45 bis 3,5 GHz, 256 MByte L3-Cache, 280 Watt, Listenpreis 7890 US-Dollar) und zwei Xeon Platinum 8380 (40 Kerne, 2,3 bis 3,4 GHz, 60 MByte L3, 270 Watt, 8100 US-Dollar). Von AMD kam zudem ein Schwung kleinerer Epyc-CPUs, die wir in einer der kommenden Ausgaben testen.

Die Epycs konnten wir in einem ­Daytona-Referenzsystem nach einem ­Update von BIOS und BMC-Firmware in Betrieb nehmen. Die Xeons steckten in Intels neuem „Coyote Pass“-Rackserver (M50CYP2U) mit LGA4189-Fassungen und PCIe 4.0. Bei den Servern mit Pärchen von Epyc 7763 und 7742 sowie Intels neuen Xeon Platinum 8380 kamen jeweils 16 DDR4-3200-RDIMMs (je 32 GByte, insgesamt 512 GByte) zum Einsatz, sodass sämtliche RAM-Kanäle bestückt waren. Das ältere Xeon-System mit 8280er-CPUs fuhren wir mit zwölf 32-GByte-Modulen DDR4-2933 ebenfalls aus. Alle Tests liefen unter Linux, genauer mit Ubuntu 20.04.2 LTS mit dem Kernel-Build 5.8.0-48.

Die Messung mit dem synthetischen Programm Flops mit hochoptimiertem AVX2-/512-Code zeigt, dass AMDs Epyc 7003 beim reinen Gleitkomma-(Floating-­Point-/FP-)Durchsatz nicht mehr so stark zulegt wie beim vorigen Generationswechsel. Nur sieben Prozent Leistungsplus verzeichnet die Milan-Plattform ­gegenüber ihrem Vorgänger. Die Messung von Intels Xeon Platinum hingegen bestätigt die Papierform: (vor allem) die zusätzlichen Kerne (plus 42 Prozent) lassen die Ice-Lake-Xeons ihren Vorgängern davon sprinten und auch im Vergleich zum Epyc 7763 sind sie noch 15 Prozent schneller. Die Xeon Platinum 8380 profitieren dabei auch von der verbesserten Fertigungstechnik, denn die zusätzliche Performance übersteigt den ebenfalls vorhandenen Zuwachs an erlaubter TDP (plus 32 Prozent).

Der Numbercruncher y-cruncher macht ebenfalls heftigen Gebrauch von AVX-512, welches nicht nur doppelt so viele Daten wie AVX-2 durch die Rechenwerke schleust, sondern vor allem auch neue Befehle mitbringt, die im Einzelfall noch mehr Performance ermöglichen. Hier liegen die Xeon 8380 nur rund 15 bis 20 Prozent hinter den neuen Epycs mit 60 Prozent mehr Kernen beziehungsweise Threads.

In Tests, die praxisbezogeneren Programmcode nutzen, zeigt sich ein anderes Bild. Zwar liegen die neuen auch hier fast durchweg vor den alten Xeons, kommen aber nicht einmal an AMDs alte 7742er-Epyc-CPUs heran. Dass sie dabei weniger Kerne zur Verfügung haben, ist im Duell der Spitzenmodelle keine Entschuldigung, kann aber bei schwächer bestückten Servern wichtig sein; nämlich dann, wenn weniger, dafür einzeln stärkere Kerne auch geringere Lizenzkosten für die verwendete Software bedeuten.

Im Rendering-Programm Blender 2.92.0 LTS zeigen die neuen Epyc-Prozessoren am eindrucksvollsten, dass AMD noch einmal einiges an Performance speziell aus den einzelnen Kernen herausquetschen konnte: 16 Prozent schneller ist das Epyc-7763-Gespann im Vergleich zu den 7742ern und knapp 39 Prozent vor den Xeon Platinums. Auch beim Video-Transcoder Handbrake schneiden die neuen Epycs deutlich besser ab als die Xeon 8380. Die liegen sogar hinter ihren älteren Geschwistern, weil dieser Test nicht alle Kerne voll auslastet und daher der höhere Turbo-Takt der Xeon Platinum 8280 durchschlägt. Auch das Kompilieren komplexer Projekte wie des Linux-Kernels 5.11.10 mit dem GCC-Kompiler 9.3.0 läuft auf den Epycs merklich flotter, schon allein, weil sie mehr Kerne haben. Der nackte Durchlauf ohne Module gelingt dabei in gerade einmal 21 Sekunden.

Täglich grüßt das SPEC-Murmeltier

Seit 1989 ist die CPU-Benchmark-Suites der Standard Performance Evalution Corporation (SPEC) nicht nur dem Namen nach, sondern auch de facto der Standard für CPU-Performance. Derzeit ist CPU2017 aktuell. Das ist ein Benchmark von echten Applikationen, darunter viele wissenschaftliche Anwendungen, aber auch ­Spiele wie Schach und Go, Video, Komprimierung, Bilderkennung. Allerdings liegt die SPEC-Suite als Quellcode vor und muss also vor den Testläufen kompiliert werden. Dabei kitzeln die CPU-Hersteller mit ausgefeilten Optimierungen das Maximum aus ihren Chips heraus. Der folgende Abschnitt erläutert einige dieser ziemlich komplizierten Tricks.

Die SPEC CPU 2017 besteht aus vier Teilen, die nach Gleitkomma oder Integer-Berechnungen (fp/int) unterscheiden sowie nach Durchsatz („rate“, alle Kerne) oder Geschwindigkeit („speed“, Einzelkern). Zudem gibt es eine weitere Aufteilung in Basis („base“) und höher optimierten Peak-Code – wir messen ausschließlich nach den Basis-Regeln. So erhält man die vier Werte SPECrate2017_int_base, SPECrate2017_fp_base, SPECspeed2017_int_base und SPECspeed2017_int_base, die wir im Folgenden als FPrate, FPspeed, Intrate und Intspeed abkürzen.

AMD und Intel kämpfen für gute SPEC-Werte nicht nur mit ihrer Hardware gegeneinander, sondern verstärkt auch mit Compilern. Schließlich beeinflusst deren Leistung ganz wesentlich die Benchmark­ergebnisse. Viele Jahre lang war AMD auf diesem Gebiet auf Compiler von Firmen wie Microsoft, PGI oder der GNU-Community (GCC/++, GFortran) angewiesen oder gar auf das Wohlwollen der Compiler­entwickler des Konkurrenten, das sich – freundlich ausgedrückt – in Grenzen hielt. Inzwischen gibt es den AMD Optimizing C/C++-Compiler AOCC auf Basis von LLVM, kostenlos und Open Source. Gerade ist er in Version 3.0 verfügbar, die speziell auch die neuen Epycs unterstützt. Intel verwendet bei seinen kostenpflichtigen, pro­prietären Compilern nun auch ein LLVM-Backend und offeriert mit „OneAPI“ eine komplette Programmierumgebung für verschiedene Prozessoren und Beschleuniger.

GCC dominiert

Die herstellereigenen Compiler sind zumeist ein gutes Stückchen schneller, unter anderem, weil sie undokumentierte Features nutzen können.

Insbesondere bei AMD beruhen die veröffentlichten Benchmarkergebnisse auf den Websiten der SPEC (www.spec.org) derweil auf aberwitzig vielen Spezial-­Flags, die die Benchmarkspezialisten in monatelanger mühevoller Kleinarbeit speziell für die SPEC-Benchmarks ausgetüftelt haben. So programmiert ansonsten kein Mensch!

Aber so sehr sich Intel und AMD auch bemühen, außerhalb vom High-Performance-Computing ist der Einsatz ihrer Compiler eher selten. In der Praxis dominieren ganz klar weiterhin die GNU-Compiler. Blöd also, dass von den abertausend Veröffentlichungen der CPU2017-Bench­markergebnisse auf www.spec.org einzig der ARM-Serverprozessor Kunpeng 920 von Huawei mit GNU-C/C++ und -GFortran aufgelistet ist. Bei x86 ist da komplett Fehlanzeige.

Wir führten daher schon beim Zweikampf der beiden Vorgänger vor zwei Jahren einen anderen Ansatz für einen fairen Vergleich von Prozessor-Architekturen ein: Man verwendet für beide Kontrahenten den gleichen, möglichst aktuellen Compiler GCC/G++ mit dem Flag -O3 für die beste Performance und mit dem passenden Architektur-Flag [3]. Auch auf das Einbinden eines speziellen Heap Managers (etwa jemalloc) verzichten wir, auch wenn man dadurch vor allem in den Integer-Suites durchaus 10 bis 20 Prozent Performance einbüßt. Aber es geht ja nicht um Geschwindigkeitsrekorde, sondern um faire Vergleiche.

Der nagelneue GCC 11.1.0 von Ende April kennt jetzt beide Probanden: -march=icelake-server für den Xeon 8380 und -march=znver3 für den Epyc 7763.

Überraschung

Einen Performancezuwachs auf dem Cas­cade Lake (Xeon 8280) zu den zwei Jahre alten Ergebnissen mit der GCC-9.1-Version konnten wir bei unsern SPEC-Läufen allerdings nicht ausmachen, im Gegenteil: bei den Int-FPrate-Messungen zeigte sich oft eine Verlangsamung. Beim Fortran-Benchmark 503.bwave_r war sie besonders ausgeprägt: 295 Punkte mit dem GCC 11.1, aber 495 mit GCC 9.1.

Ähnlich merkwürdig sah es bei den AMD-Prozessoren aus: Der Epyc 7763 mit GCC 11.1 erwies sich bei gleicher Kernzahl und gleichem Takt häufig als langsamer gegenüber dem Vorgänger Rome mit GCC 9.1. Also fuhren wir die ganze Suite zur Kontrolle noch mal mit dem GCC 9.1 auf dem Milan: Der alte Compiler erzeugte im Schnitt 10 Prozent schnelleren Code. Bremsen da etwa inzwischen standardmäßig aktivierte Sicherheitseinstellungen gegen Seitenkanalangriffe wie Spectre?

Mit den alten Compilern jedenfalls war, wie es sich für eine neue Prozessorgeneration gehört, der Milan dann doch ein Stückchen schneller. Gemäß der Veröffentlichungen der AMD-Partner mit Rome (AOCC 2.0) und Milan (AOCC 3.0) stiegen FPrate und Intrate im Schnitt um 24 Prozent. Bei unseren GCC-9.1-Messungen und gleichem Code für beide Prozessoren gab es indes lediglich zehn Prozent Zuwachs. FPrate wird auf den AMD-Epyc-­Prozessoren übrigens sinnvollerweise nur mit halber Thread-Anzahl auf den physischen Kernen gefahren, also ohne Simultaneous Multithreading (SMT). Dann ist für die Performance-Optimierung ein korrektes Binden der Threads an die Cores (per Numactrl) nötig. Alternativ schaltet man SMT im BIOS-Setup ab.

Abstandshalter

Mit seinen 80 logischen Kernen legt der Xeon Platinum 8380 schon 42 Prozent gegenüber dem Vorgänger drauf, die man dann auch in den SPEC-Werten wiederfindet. Aber auch diese Steigerung reicht noch nicht, um die Epycs bei den Rate-­Durch­satzwerten vom Sockel zu stoßen. Lediglich bei den Integer-Speed-Benchmarks liegt er gleichauf mit Milan, hier wirkt sich seine hohe Single-Thread-Performance aus. Aber ansonsten bleibt er weiterhin selbst hinter AMDs Rome klar zurück. Bei den Ergebnissen mit hoch­optimierten Com­pilern (AMD AOCC 2.0 gegen Intel One­API) beträgt der Unterschied bei FPrate 11 Prozent, bei Intrate 19 Prozent. Nach unseren GCC9-Messungen ist der Abstand noch deutlich größer, 26 Prozent bei ­FPrate und sogar 46 Prozent bei Intrate. Und der Milan legt jeweils noch eine Schippe drauf, hier liegen die Ergebnisse bei Intrate bei 48 Prozent (AOCC3.0 gegen OneApi) beziehungsweise 49 Prozent mehr mit GCC 9 und gar bei 60 Prozent Zuwachs mit GCC 11. Bei FPrate liefern die hochoptimierten Compiler etwa die gleichen Verhältnisse wie unsere GCC-Messungen mit einem Plus von 37 Prozent für den Milan. Da bleibt für Intel also noch einiges zu tun, um hier wirklich den Anschluss zu schaffen.

Fazit

Während die dritte Epyc-Generation 7003 nur leichte, aber gut wirksame Verbesserungen bringt, übertrumpfen die Ice-Lake-Xeons ihre Vorgänger deutlich. Doch wer zu spät kommt, den bestraft das Leben: Auch die neuen Xeon-Spitzenmodelle bleiben in vielen Disziplinen hinter den Epycs zurück – oft sogar hinter den älteren Epyc 7742. Bei identischer Kernanzahl und RAM-Bestückung dürften die Performance-Unterschiede zwischen Milan- und Ice-Lake-Systemen hingegen abschmelzen. Bei Allzweck-­Servern, die häufig nach der Maßgabe „möglichst viele Kerne und RAM fürs Geld“ bestückt werden, verschärft sich deshalb wohl der Preiskampf zwischen AMD und Intel.

Wenn es um spezielle Einsatzbereiche geht wie Cloud-Server für Confidential Computing, Supercomputer oder KI-Systeme, kommen die jeweils exklusiven Funktionen der konkurrierenden Prozessoren ins Spiel: SEV und Infinity Architecture auf der Epyc-Seite, SGX, VNNI und Optane-Speicher bei den Xeons. ­Unabhängig von der CPU-Rechenleistung bringt PCI Express 4.0 mehr Geschwindigkeit für SSDs und Rechenbeschleuniger – endlich auch bei Xeons. (csp@ct.de)

Kommentare lesen (1 Beitrag)