Intel bringt nächste Serverprozessorgeneration Broadwell-EP
Die vierte Core-Servergeneration fĂĽr zwei Sockel kommt mit bis zu 22 Kernen. Doch der Broadwell-EP bietet nicht nur auf 14 nm verkleinerte Strukturen, sondern auch Verbesserungen in der Architektur.
Gut eineinhalb Jahre nach dem Haswell-EP (Xeon E5-2600v3) und gerade noch rechtzeitig fürs erste Quartal 2016 folgt nun als verspäteter "Tick" die vierte Generation Broadwell-EP (Xeon E5-2600v4). Er ist ein Sockelfolger für den LGA2011, kann also alte Systeme aufrüsten. Ob sich das mit im Schnitt mit etwa 23 bis 27 Prozent Performancezuwachs – bei gleichzeitigem Aufrüsten des Speichers von DDR4-2133 auf DDR4-2400 – lohnt, ist eine andere Frage.
Der Zuwachs ist jedenfalls nicht soo riesig, es ist der kleinste einer neuen Generation seit Beginn der Core-Ära im Jahre 2006 beginnend mit Woodcrest (Xeon 5160). Für diesen Performance-Zuwachs ist jetzt hauptsächlich die größere Kernzahl verantwortlich. Das Flaggschiff Xeon E5-2699v4 hat mit 22 Kernen nun vier mehr als der Vorgänger Xeon E5-2699v3 -- beim gleichem edlen OEM-Preis von 4115 US-Dollar pro Chip.
Höherer IPC-Wert
Es gibt aber auch zahlreiche Verbesserungen in der Architektur, etwa schnellere Vektormultiplikationen. Manche Befehle, die vorher zwei Mikrooperationen erforderten, benötigen jetzt nur noch eine und sind im Durchsatz nun doppelt so schnell. Vor allem Langzahl- und Krypto-Algorithmen profitieren davon mit bis zu 70 Prozent mehr Performance. Im Schnitt steigt durch die schnelleren Befehle die Single-Thread-Leistung, gemessen in "Instructions per Clock" (IPC) um sechs Prozent. Hinzu kommt im realen Betrieb der mitunter weit höhere Takt bei Single-Thread-Last.
Der Prozessortakt ist weiterhin davon abhängig, ob die Kerne gelegentlich AVX-Befehle ausführen oder nicht. Aber anders als beim Haswell-EP fährt der Broadwell nicht gleich den ganzen Prozessor herunter, sondern nur den Takt für den betroffenen Kern. Bis zu 18 Turbo-Bins sind beim AVX-Takt beim Xeon E5-2699v4 möglich, der damit den AVX-Basistakt von 1,8 GHz bei Betrieb auf nur einem Kern verdoppeln kann.
Auch Transactional Memory (TSX) ist beim Broadwell-EP nun aktiviert. Diese etwa für Datenbanken nützliche Technik kann in bestimmten Fällen die Performance drastisch steigern.
HCC, MCC und LCC
Wie auch beim Haswell-EP gibt es den Broadwell-EP in drei Chip-Ausführungen. Die Advanced-Klasse mit High Core Count (HCC) von 16 bis 22 Kernen besitzt 7,2 Milliarden Transistoren auf 456 mm². Das sind etwa 26 Prozent mehr Transistoren als beim Haswell. De facto hat der Broadwell-HCC-Prozessor 24 physische Kerne, zwei davon sind jedoch abgeschaltet und bleiben dem Broadwell-EX vorbehalten.
Die Standardklasse (MCC) ist mit 12 bis 14 Kernen bestückt (4,7 Mrd./306 mm²). Dann gibt es noch die Basisklasse (LCC) mit sechs bis zehn Kernen, (3,4 Mrd./246 mm²). Neben diesen drei Klassen gibt es Spezialausführungen für spezielle Segmente, für Storage und Kommunikation, für Workstations, für Low-Power und als sogenannte frequenzoptimierte SKUs, nützlich um zum Beispiel Lizenzkosten für bestimmte Datenbanken zu optimieren.
Ebenfalls wie beim Haswell sind bei den HCC- und MCC-Ausführungen die Kerne und die L3-Cache-Segmente in zwei Ringe organisiert, die über zwei schnelle Brücken miteinander verbunden sind. Wahlweise kann man bei HCC die Ringe aber auch als eigenständige Prozessoren betreiben, als sogenannten Cluster-on-Die (CoD) Das bringt bei entsprechender NUMA-tauglicher Software oft noch ein paar Prozent zusätzlicher Performance. Beim Broadwell-HCC klappt es mit CoD noch etwas besser als beim Haswell-HCC, weil bei jenem die beiden Ringe ungleich groß sind. Damit die Betriebssysteme und die Programmierer nicht durch unterschiedliche Kernzahlen irritiert werden, hatte Intel daher beim Haswell im CoD-Betrieb einen Kern aus dem größeren Ring dem anderen zugeordnet. Der ist aber dann etwa langsamer eingebunden, wodurch die Gesamtperformance marginal sinkt.
SPEC CPU2006
Bei Messungen im c't-Labor, etwa mit SPEC CPU2006 unter RHEL 7.2 stieg mit CoD auf dem E5-2699v4 die Performance bei SPECfp_rate_base2006 von 1000 auf 1040, bei SPECint_rate_base2006 von 1430 auf 1450. Die offiziellen CPU2006-Werte von Intel beziehungsweise Partnern wie Dell, Fujitsu, Lenovo ... sind vor allem wegen des Einsatzes spezieller Heap-Bibliotheken üblicherweise um 10 bis 20 Prozent höher. Hier wie dort liegen aber die Steigerungsraten gegenüber dem Vorgänger in der gleichen Größenordnung von 25 Prozent.
Neben CoD gibt es auch viele andere Konfigurationsmöglichkeiten, die die Performance beeinflussen, etwa Hyper-Threading, Prefetch, Turbo, Performance/Balanced-Modus sowie zwei verschiedene Snoop-Techniken: Early Snoop und Home Snoop. Die eine Technik ist bei der Speicherlatenz von Vorteil, die andere bei der Speicherbandbreite.
Linpack, Stream, SAP-SD
Für den Linpack-Benchmark wird üblicherweise ohne CoD mit Home Snoop gemessen und zudem Hyper-Threading abgeschaltet. Die mit OpenMP arbeitende SMP-Version braucht dann im c't-Labor auf dem Xeon E5-2699v4 für die Lösung eines linearen Gleichungssystems mit 100.000 Unbekannten ziemlich genau 500 Sekunden und kommt damit auf 1331 GFlops. Das sind über 30 Prozent mehr als zuvor beim Haswell. Mit dem Broadwell kam aber auch ein neues BIOS – und das beschleunigte auch den alten Haswell im ST2600WTT-Board von Intel ein Stückchen (gut 5 Prozent beim Linpack). Dieser Wert ist bei obigen 30 Prozent aber bereits berücksichtigt.
Von Intel gibt es darüber hinaus auch noch eine mit MPI arbeitende Linpack-MP-Version – und die ist sogar noch etwas fixer und schafft über 1400 GFlops.
Der Speicherbenchmark Stream in der OpenMP-Fassung 5.10 legt je nach Konfiguration ebenfalls gut zu, bei c't sogar mehr als die von Intel proklamierten 8 Prozent: ohne CoD, ohne HT von 108 auf 125 und mit CoD, ohne HT von 119 auf 130 GByte/s.
Leider geben viele Benchmarker die zugrundeliegende Konfiguration gar nicht an, das gilt auch für den wichtigen SAP-SD-Benchmark. Bei dem hat jetzt Cisco auf dem UCS C240M4 im Moment ganz knapp die Nase vorn vor Dell. Mit 21210 SD-Usern (0,99 s Antwortzeit, 115.820 SAPS) , gemessen unter Windows Server 2012R2, DB2 10.1, ist er gut 31 Prozent schneller als der alte Wert aus dem Jahre 2014 im gleichen System mit Haswell-EP – vermutlich auch noch mit altem BIOS ...
Viele weitere Informationen zum neuen Broadwell-Chip und weitere interessante Benchmarkergebnisse folgen in der c't 9/2016.
Die Broadwell-EP-Familie (Xeon E5-2600v4, ohne Spezial-SKUs) | |||||||
Prozessor | Kerne | BasisTakte Non-AVX/AVX [GHz] | L3 -Cache [MByte] | TDP [W] | QPI [GByte/s] | DDR4 [GT/s] | OEM-Preis [US-$] |
Xeon E5-2699 v4 | 22 | 2,2/1,8 | 55 | 145 | 9,6 | 2400 | 4115 |
XeonE5-2698 v4 | 20 | 2,2/1,8 | 50 | 135 | 9,6 | 2400 | 3226 |
XeonE5-2697A v4 | 16 | 2,6/2,2 | 40 | 145 | 9,6 | 2400 | 2891 |
XeonE5-2697 v4 | 18 | 2,3/2,0 | 45 | 145 | 9,6 | 2400 | 2702 |
XeonE5-2695 v4 | 18 | 2,1/1,7 | 45 | 120 | 9,6 | 2400 | 2424 |
XeonE5-2690 v4 | 14 | 2,6/2,1 | 35 | 135 | 9,6 | 2400 | 2090 |
XeonE5-2683 v4 | 16 | 2,1/1,7 | 40 | 120 | 9,6 | 2400 | 1846 |
XeonE5-2680 v4 | 14 | 2,4/1,9 | 35 | 120 | 9,6 | 2400 | 1745 |
XeonE5-2660 v4 | 14 | 2,0/1,7 | 35 | 105 | 9,6 | 2400 | 1445 |
XeonE5-2640 v4 | 10 | 2,4/1,8 | 25 | 90 | 8 | 2133 | 939 |
XeonE5-2630 v4 | 10 | 2,2/1,8 | 25 | 85 | 8 | 2133 | 667 |
XeonE5-2623 v4 | 4 | 2,6/2,2 | 10 | 85 | 8 | 2133 | 444 |
XeonE5-2620 v4 | 8 | 2,1/1,8 | 20 | 85 | 8 | 2133 | 417 |
XeonE5-2609 v4 | 8 | 1,7/1,7 kein Turbo | 20 | 85 | 6,4 | 1866 | 306 |
XeonE5-2603 v4 | 6 | 1,7/1,7 kein Turbo | 15 | 85 | 6,4 | 1866 | 213 |
FOR 2-SOCKET SERVERS – FREQUENCY OPTIMIZED | |||||||
XeonE5-2667 v4 | 8 | 3,2/2,6 | 25 | 135 | 9,6 | 2400 | 2057 |
XeonE5-2643 v4 | 6 | 3,4/2,8 | 20 | 135 | 9,6 | 2400 | 1552 |
XeonE5-2637 v4 | 4 | 3,5/3,2 | 15 | 135 | 9,6 | 2400 | 996 |
FOR 2-SOCKET SERVERS – LOW POWER | |||||||
XeonE5-2650L v4 | 14 | 1,7/1,2 | 35 | 65 | 9,6 | 2400 | 1329 |
XeonE5-2630L v4 | 10 | 1,8/1,3 | 25 | 55 | 8 | 2133 | 612 |
FOR 2-SOCKET WORKSTATIONS | |||||||
XeonE5-2687W v4 | 12 | 3,0/2,6 | 30 | 160 | 9,6 | 2400 | 2141 |
(as)