AMD-Prozessor Naples: Angriff auf den Server-Markt

Erste offizielle Benchmarkergebnisse des fürs zweite Quartal vorgesehenen Server-Prozessors Naples mit Zen-Architektur zeigen dessen Stärke bei speicherintensiven Aufgaben.

In Pocket speichern vorlesen Druckansicht 194 Kommentare lesen
AMDs Angriff auf den Server Markt

(Bild: AMD)

Lesezeit: 7 Min.
Von
  • Andreas Stiller
Inhaltsverzeichnis

Auf dem Open Compute Summit in Santa Clara stellt AMD den geplanten 32-Kern-Serverprozessor "Naples" genauer vor und veröffentlicht auch erste Benchmarkergebnisse. In einem ausgewählten Benchmark-Szenario konnte ein Zwei-Prozessor-System bestückt mit AMD Naples mit insgesamt 64 physischen Kernen Intels aktuelles Flaggschiff Xeon E5-2699A V4 (Broadwell-EP) mit 44 physischen Kernen um bis zum Faktor 2,5 abhängen. Reduziert auf ebenfalls 44 Kerne war das Naples-System immer noch doppelt so schnell.

Diese Zahlen darf man allerdings nicht zu hoch hängen, da das Szenario doch sehr konstruiert ist. Aber selbst wenn man 20 bis 30 Prozent "Vorführeffekt" abzieht, bleibt immer noch ein erklecklicher Vorsprung.

Der verwendete Benchmark aus dem Seismologie-Bereich verwendet nämlich ähnlich wie der immer wichtiger werdende HPCG-Benchmark der High-Performance-Computer-Szene vornehmlich so genannte Sparse-Matrix-Operationen mit riesigen Matrizen eines Gitters mit 1 Milliarden Punkten. Und ähnlich wie bei HPCG dürfte er damit fast ausschließlich vom RAM-Durchsatz und vom Interconnect zwischen den physischen Prozessoren und Kernen bestimmt sein -- und genau das ist das Gebiet, wo das Naples-System mit seinen acht Speicherkanälen pro Prozessor und mit dem neuen Infinity Fabric hervorragend punkten kann. Intels Broadwell-EP hat nur vier Speicherkanäle pro Prozessor.

Im Zwei-Sockel-System werden 64 der 128 PCIe-Links eines Naples-Prozessors für den Interconnect (Infinity Fabric) umgewidmet.

(Bild: AMD)

Angegeben für Naples hat AMD theoretisch 170,9 GByte/s pro Prozessor, also 8 × 21,6 GByte/s (DDR4-2666), gemessen hatten die Benchmarker jedoch mit DDR4-2400 (19,2 GByte/s). Intel nennt als maximale Memory Bandwidth für den Xeon E5-2699A V4 76,8 GByte (4 × 19,2 GByte/s, DDR4-2400) an, das ist weniger als die Hälfte.

Intels Nachfolger Skylake-EP, der als Xeon E5-2600 V5 etwa gleichzeitig mit Naples im Verlaufe des zweiten Quartals 2017 herauskommen soll, wird dann allerdings schon 6 Kanäle DDR4-2666 pro Prozessor aufbieten (127,8 GByte/s).

Stream-Triad-Messungen mit AMDs Desktop-Zen Ryzen 7 1800X mit DDR4-2400 kamen nach Messungen von c't über 33 GByte/s nicht hinaus (stream5.10.c mit OpenMP, kompiliert ohne Spezialoptimierung mit Intel-Compiler 17); Ergebnisse mit gcc 6.2 (mit Zen-Flag) und Microsoft VS17 lagen noch weit darunter.

Hochgerechnet auf 8 Speicherkanäle wären das maximal 132 GByte/s – also nicht viel mehr als die 120 GByte/s, die c't auf einem Broadwell-EP-System gemessen hat. Vermutlich ist jedoch die Speicheranbindung bei Naples deutlich besser implementiert als bei Ryzen.

Das Bestückungsszenario war zudem für das Intel-System besonders unglücklich gewählt. Da sich AMD auf Registered DIMMs mit je 16 GByte DDR4-RAM beschränkte, mussten für das gewählte Grid im Broadwell-EP-System alle drei DIMM-Slots jedes Kanals bestückt werden (3 DIMMs per Channel, 3DPC). Das führt dazu, dass diese dann nur mit 1866 GT/s laufen statt mit bis zu 2400 GT/s mit zwei RDIMMs.

Um dieselbe Speicherkapazität aufzubieten, hätte man auch alternativ (wenn auch weitaus teurere) LRDIMMS mit 32, 64 oder gar 128 GByte einsetzen können, die inzwischen für das System mit 2400 GT/s (bei 2 DPC) validiert sind. Nach Messungen von Fujitsu mit dem Brandbreitenbenchmark Stream macht das etwa 20 Prozent Unterschied aus.

Das Naples-System mit 32 DIMMs à 16 GByte

Andererseits stellen bei gleicher RAM-Größe pro Modul 16 DIMMs pro CPU stets mehr Kapazität bereit als 12 DIMMs; folglich wird es immer Aufgabengrößen geben, wo Naples auch seine Speicherkapazitätsvorteile ausspielen kann. Laut AMD wird es Naples für Server mit einer und mit zwei CPU-Fassungen geben, also für Single- und Dual-Socket-Systeme. Maximal sind bei Naples 2DPC möglich, also 32 DIMMs in einem Dual-Socket-Server. Bestückt mit 128-GByte-Modulen, die es derzeit vor allem als LRDIMMs gibt, sind 4 TByte pro Server möglich. Bei Intels Broadwell-EP sind es 3 TByte pro 2S-Server, allerdings mit 3DPC, also 24 DIMMs (2 CPUs × 4 Kanäle × 3 DIMMs).

Da bleibt abzuwarten, wie viele DIMM-Slots Skylake-EP-Systeme aufbieten werden - die Purley-Platform sieht 12 Slots pro Prozessor vor, also wiederum 24 Module pro 2S-Server oder 3 TByte mit 128-GByte-Modulen (2 CPUs × 6 Kanäle × 2 DIMMs).

Viele Boards, etwa das Open-Compute-Board Olympus von Microsoft haben zwar mehr DIMM-Slots, aber das dürfte sich dabei um Spezial-Slots für NVRAM handeln, die mangels 3D-Xpoint-Modulen (Apache Pass) erst einmal leer bleiben werden.

Naples soll aber auch mit seinen vielen PCIe-Lanes und einem schnellen Fabric punkten und überdies zusätzliche Chipsätze überflüssig machen. Die vermutlich vier Dies im Multichip-Modul verfügen über insgesamt 128 PCIe-Lanes. Schaltet man jedoch zwei Prozessoren zu einem Zweiprozessorsystem zusammen, dann werden 64 Lanes für den Interconnect "Infinity Fabric" umgewidmet [-] ähnlich wie der Xeon Phi Knights Landing einen Großteil seiner PCIe-Lanes für den Omnipath-Interconnect opfert.

Die Performance des auf einem erweiterten HyperTransport-Protokoll beruhenden Infinity Fabric hat AMD noch nicht bekannt gegeben, aber man kann insgesamt von der 64fachen PCIe-3.0-Geschwindigkeit ausgehen, also von etwa 62 GByte/s vollduplex. Zum Vergleich: die beiden QPI-Links des Broadwell-EP liegen brutto bei 38,4 GByte/s pro Richtung. Obiges Benchmarkszenario dürfte also auch von diesen schnelleren Links erheblich profitieren.

Vier-Sockel-Systeme, so AMDs Serverchef Forrest Norrod, seien nicht geplant. Man kann aber Naples-Prozessoren mit weniger Kernen erwarten sowie Single-Socket-Systeme.

Mit seinen acht Speicherkanälen pro Prozessor und 128 PCIe-3.0-Lanes pro System adressiert Naples zahlreiche Serveraufgaben (Web, Cloud, Mail, Applikationen... ), bei denen Speicherperformance und I/O im Vordergrund stehen und weniger die nackte Rechenleistung pro Kern. Denn wie die Desktop-Version Ryzen auch, verzichtet Naples auf die 256 Bit breite Verarbeitung in den AVX-Recheneinheiten, zugunsten von mehr Kernen.

Auf dem Ryzen-Tech-Day führte AMD den seismologischen Benchmark (unter NDA) live vor (hier mit knapp 1 Milliarde Zellen). Beide Systeme laufen mit 44 Kernen, Blau: Intel Broadwell-EP, Grün: AMD Naples

Für besonders rechenintensive Aufgaben, die AVX oder AVX2 nutzen, wie der im High Performance Computing (HPC) bislang übliche Linpack-Benchmark, bietet sich Naples demnach weniger an. Das gilt um so mehr im Vergleich zum Skylake-EP, der die Verarbeitungsbreite der AVX-Recheneinheiten noch einmal verdoppeln wird.

Allerdings kommen einerseits in vielen Supercomputern auch Rechenbeschleuniger zum Einsatz, für die Naples mit seinen vielen PCIe-Lanes gut gerüstet ist. Andererseits wird im HPC-Bereich der Ruf nach mehr Speicherperformance immer lauter und man fragt häufiger nach HPCG- und seltener nach Linpack-Ergebnissen. Also auch hier hat Naples recht gute Chancen. Auf der Internationalen Supercomputer Conferenz ISC'17 in Frankfurt Mitte Juni dürfte er sicherlich neben dem Skylake-EP für viel Aufmerksamkeit sorgen, vielleicht wird er dort sogar offiziell vom Stapel laufen. (as)