Intels neue Xeon-E7-Familie mit verdoppelter Leistung und mehr

Gegenüber dem Xeon-E7-Vorgänger Westmere-EX bietet die neue Familie eine Allgemeinperformance, die für rechenintensive HPC-Aufgaben sogar um bis zum Faktor 3,5 höher sein kann.

In Pocket speichern vorlesen Druckansicht 101 Kommentare lesen
Lesezeit: 5 Min.
Von
  • Andreas Stiller

Lang hat die High-End-Szene der Intel-Server auf ein Update mit AVX und PCI-Express 3 warten müssen, mit der neuen Xeon E7v2-Familie (Ivy Town) ist die Wartezeit nun vorbei. Gegenüber dem Xeon-E7-Vorgänger Westmere-EX bietet die neue Familie im Schnitt eine verdoppelte Allgemeinperformance, die für rechenintensive HPC-Aufgaben sogar um bis zum Faktor 3,5 höher sein kann. Die maximale Speicherkapazität wächst um Faktor 3 und die I/O-Bandbreite um Faktor 4.

Die Verbesserungen der neuen Generation auf einem Blick

(Bild: Intel)

Jeder Prozessor bietet bis zu 15 Kerne, also 50 Prozent mehr als zuvor. Dazu kommt ein höherer Takt, eine doppelt so breite Vektoreinheit (AVX), doppelt so schnelle Speicheranbindung,sowie mit QPI 1.1 und PCIexpress 3.0 schnelleres I/O. Der Energieverbrauch im Leerlauf ist zudem erheblich niedriger: Das Testsystem der c't mit viermal Xeon E7 4890v2 liegt bei nur noch 275 Watt gegenüber dem alten System mit Xeon E7 4870, das bereits mehr als 500 Watt bei Nichtstun verschlang. Die Energieeffizenz insgesamt, gemessen mit dem Benchmark SPECPower_ssj2008, bei dem auch der Leerlaufverbrauch mit einfließt, ist um Faktor 2,4 höher.

Eine Besonderheit ist die neue Speicheranbindung, die wahlweise zwei DDR3-1333 Kanäle parallel zu DDR3-2666 verschaltet (Performance 2:1-Modus) oder einen Kanal mit DDR3-1600 fährt, dann aber Zeit für eine höherwertige Fehlerkorrektur hat (Lockstep 1:1-Modus).

Wie auch beim Westmere-EX sind die Speicher nicht direkt am Prozessor angeschlossen, sondern über Memory Buffer (Jordon Creek), die die beiden Speicherkanäle betreiben und die jeweils zwei (C10) oder drei (C10x) DIMMs pro Kanal unterstützen. Mit dem Prozessor korrespondieren sie über ein Scalable Memory Interface SMI. Darüber könnte man auch DDR4-Memory-Buffer betreiben, das hebt sich Intel aber noch auf.

Blockdiagramm: Xeon E7 mit bis zu 15 Kernen, zwei Ringbussen, zwei Home Agents und vier Speicherinterfaces SMI2

(Bild: Intel)

Pro Prozessor bietet Ivy Town zwei Home-AQgenten mit zwei Speichercontrollern, ein jeder mit zweimal SMI2 mit 2666 GT/s. Ein Vier-Sockelsystem kann dann insgesamt 96 DIMMs beherbergen, das gibt bei Bestückung mit 64 GByte-Riegeln eine Speicherkapazität von 6 TByte.

Im Performancemodus haben Intels Benchmarker 244 GByte/s im Stream-Triad erzielt, das c't-Testsystem unter Red Hat Enterprise Linux 6.5 kam mit 241 GByte/s sehr nahe dran. Im besser fehlergeschützten Lockstepmodus liegt die Speicherbandbreite bei 159 GByte/s. Beim Linpack-Benchmark ist das Vierfachsystem mit Xeon E7-4890V2 dank AVX mit offiziell 1273 GFlops etwa um Faktor 3,5 schneller als das Vorgänger-System. Hier blieb das c't-Testsystem mit 1203 GFlops (bei 80.000 Gleichungen) ebenfalls nur knapp darunter, da gibt es sicherlich noch etwas Optimierungspotenzial.

Bei SPEC CPU2006 misst c't jedoch in einem anderen Szenario als Intel, mit 64bittigem Code ohne Zusatzbibliotheken, nur mit Standardflags und ohne Autoparallelisierung. Letzteres ist vor allem für die so genannten Speed-Werte wichtig, denn nur so bekommt man Aussagen über die Single-Thread-Performance. Man braucht sich nur einmal bei den veröffentlichten SPECint-Werten (alle mit Autoparallelisierung) anschauen, wie der besonders gut parallelisierbare Benchmark libquantum alle anderen dominiert, etwa hier.

Ein paar Performancewerte im Vergleich, unter "General Purpose Compute" versteckt sich SPECint_2006rate, hinter "HPC Application Throughput" SPECfp_2006rate und hinter "Matrix Multiply" Linpack.

(Bild: Intel)

Bei den Durchsatzwerten setzt das Ivy-Town-System bei SPECint_rate_base2006 und SPECfp_rate_base2006 mit 2280(Intel) beziehungsweise 1950 (c't) SPECint_rate_base2006 und 1687 (Intel) bzw 1580 (c't) SPECfp_rate_base2006 neue Maßstäbe für Vierfach-Server, mehr als doppelt so schnell wie der Vorgänger Xeon E7- 4870. Das schnellste Viersockelsystem überhaupt war bislang Fujitsus SPARC M10-4S mit 1430 beziehungsweise 1400 Punkten.

Fujitsus weitgehend in Deutschland gefertigte x86er sind da fixer, insbesondere das neue 8-Sockel-System Primequest 2800E. Das erzielt jetzt im wichtigen SAP-SD-Benchmark 47,500 SD-User bei 0,97 s mittlerer Antwortzeit (259.680 SAPS). Auch IBM und Dell haben bei SAP ihre Xeon-E7v2-Viersockelsysteme gemeldet, die bei 25.000 SD-Usern (136.700 SAPS) respektive 24.150 SD-Usern (132.240 SAPS) liegen.

Die neuen Prozessoren erreichen allerdings auch beim Preis mit bis zu 6841 US-Dollar neue Höhen. Pro Kern liegt das Spitzenmodell Xeon E7 4890v2 mit rund 110 US-Dollar aber gleichauf mit dem Vorgänger Xeon E7 4870, ist jedoch mit 2,8 GHz Grundtakt deutlich schneller.

Mehr zu Intels neuer Xeon-E7-Familie in der nächsten c't, die ab Montag, dem 24.2, am Kiosk liegt.

Xeon-E7v2-Familie
Xeon E7 Kerne/ Threads Takt [GHz] L3-Cache [MByte] Turbo 1C/all Speicher [DDR3-] QPI [GT/s] TDP [W] OEM-Preis [US-$]
2850v2 12 / 24 2,3 24 5/2 1333 7,2 105 2558
2870v2 15 / 30 2,3 30 6/3 1600 8 130 4227
2880v2 15 / 30 2,5 37,5 6/3 1600 8 130 5339
2890v2 15 / 30 2,8 37,5 6/3 1600 8 155 6451
4809v2 6 / 12 1,9 12 kein 1066 6,4 105 1223
4820v2 8 / 16 2 16 5/3 1333 7,2 105 1446
4830v2 10 / 20 2,2 20 5/3 1333 7,2 105 2059
4850v2 12 / 24 2,3 24 5/3 1333 7,2 105 2837
4860v2 12 / 24 2,6 30 6/4 1600 8 130 3838
4870v2 15 / 30 2,3 30 6/4 1600 8 130 4394
4880v2 15 / 30 2,5 37,5 6/4 1600 8 130 5506
4890v2 15 / 30 2,8 37,5 6/4 1600 8 155 6619
8850v2 12 / 24 2,3 24 5/3 1333 7,2 105 3059
8857v2 12 / 12 3 30 6/4 1333 8 130 3838
8870v2 15 / 30 2,3 30 6/4 1600 8 130 4616
8880v2 15 / 30 2,5 37,5 6/4 1600 8 130 5729
8880Lv2 15 / 30 2,2 37,5 6/4 1600 8 105 5729
8890v2 15 / 30 2,8 37,5 6/4 1600 8 155 6841
8891v2 10 / 20 3,2 37,5 5/2 1600 8 155 6841
8893v2 6 / 12 3,4 37,5 3/1 1600 8 155 6841

(as)