Intel Xeon E7 v3: Intels nächste Servergeneration mit Haswell-Kern

Nun zieht der Haswell-Kern mit AVX2 und DDR4-Speicher auch in die großen Xeon-E7-Server mit vier und acht Sockeln ein.

In Pocket speichern vorlesen Druckansicht 30 Kommentare lesen
Intels nächste Xeon-E7-Servergeneration
Lesezeit: 7 Min.
Von
  • Andreas Stiller
Inhaltsverzeichnis

Am heutigen Dienstag ist der offizielle Launch des neuen Serverprozessors Xeon E7 (Codename Haswell-EX). Wer die volle Zahl von 18 physischen Kernen genießen möchte, muss etwas tiefer in die Tasche greifen – die Version gibt es jetzt nur noch in der etwas teureren 8800-Ausführung. Diese ist dafür auch gleich für bis zu acht Sockel ausgelegt. Der Nachfolger des Xeon E7-4890v2 (bisheriger Listenpreis 6619 US-Dollar) ist daher also nicht etwa der Xeon E7-4890v3 sondern der Xeon E7-8890v3 (mit einem vorgesehenen Listenpreis von 7175 US-Dollar).

Alles auf eine Blick: die neuen Versionen, Performance (SPECint_rate_2006base gemäß Intel-Szenario) und Preise.

(Bild: Intel)

Die v2- und v3-Prozessoren sind zueinander sockelkompatibel. Mit einem neuen BIOS und Upgrades für die einzelnen Bestandteile (CPLD, BMC, Raid-Controller ...), sowie mit neuen OS-Treibern kann man das alte System aufrüsten. Bei vielen E7-Servern, wie etwa bei der Intel-Brickland-Plattform, lassen sich auch die Speicher-Module für DDR4-DIMMs aufrüsten. Das bringt im Schnitt so um die 7 Prozent mehr Performance, da muss man spitz rechnen, ob sich das lohnt.

Das Innenleben der neuen Prozessoren – Kern, Anzahl der Kerne und Caches – entspricht weitgehend dem der Highend-Ausführung des Zweisockelkollegen Haswell-EP (Xeon E5). Es gibt aber einen wichtigen Unterschied: Beim Xeon E7v3 ist jetzt das Feature Transactional Memory (TSX) aktiviert. Was das bringen kann, zeigen Intel und SAP mit einem Benchmark der Inmemory-Datenbank Hana.

Intels Marketing spricht gar von einem Zuwachs um insgesamt Faktor 6 im Vergleich des Xeon E7-8890v3 zum Vorgänger Xeon E7-4890v2. Das ist allerdings arg geschönt, denn bei Intels Vergleich kommen zwei verschiedene Hana-Versionen SP8 und SP9 zum Einsatz, was allein schon einen Faktor 1,8 ausmacht. Um diesen Faktor muss man diese Marketingsaussage also kürzen, bleibt aber immer noch Faktor 3,3 übrig.

Das TSX-Feature alleine führt bei diesem Anwendungsfall etwa zu einer Verdoppelung der Performance. Ansonsten hat man die um drei größere Anzahl der Kerne und die zusätzlichen Möglichkeiten von AVX2 (Vektor-Integer-Operationen mit 256 Bit und Fused Multiply Add) zur Performancesteigerung.

Im klassischen SAP-SD-Benchmark konnte ein Fujitu-Primequest-2800E2-System mit Xeon E7-8890v3 den Achtsockel-Vorgänger mit E7 8890v2 um 23 Prozent abhängen (58626 zu 47600 SD-User). Beim Dell-PowerEdge-R30-System mit vier Sockeln lag der Unterschied bei 22 Prozent (31000 zu 25451 SD-User).

Ein weiterer Unterschied zum EP-Kollegen ist, dass die Viersockelversion den Cluster-on-Die-Modus (COD) nicht unterstützt. Der Grund dafür dürfte die begrenzte Anzahl von Bits im Snoop-Filter sein, der für jeden Knoten den Überblick behalten muss, wer wohin Daten schickt. Im COD-Modus wird die Zahl der Knoten nochmals verdoppelt, da jeder Prozessor in zwei Knoten aufgeteilt wird.

Geblieben ist auch beim Haswell-EX mit DDR4 die Möglichkeit, zwei Speicherkanäle (hier DDR4-1866) zu einem DDR4-3666-Kanal zusammenzuschalten, der sogenannte Performance-Modus. Alternativ gibt es den Sicherheitsmodus (VSME) mit DDR4-2666, der dafür zwei Fehler pro DIMM abfangen kann.

Ebenfalls übernommen hat der Haswell EX vom EP die unterschiedlichen Taktraten für AVX und Non-AVX. Das heißt, wenn auch nur ein einziger AVX-Befehl pro Millisekunde verwendet wird, fährt das System den Takt deutlich herunter. Da muss man also beim Benchmarken sehr aufpassen, welche Tasks und Dienste im Hintergrund noch so aktiv sind.

Beim Spitzenprodukt E7-8890v3 beträgt die Basisfrequenz 2,5 GHz, geht im Normalbetrieb auf allen Kernen auf 2,9 GHz und fährt bei Last auf nur einem Kern auf 3,3 GHz hoch. Kommen AVX-Befehle dazwischen, beträgt die Basisfrequenz nur noch 2,1 GHz, und der Prozessor fährt im Turbo von 2,6 GHz auf bis zu 3,1 GHz (ein Prozessor) hoch.

Für einige Segmente wie Enterprise/Datenbanken oder High Performance Computing gibt es spezielle dafür optimierte Ausführungen, etwa für HPC den E7-8867v3 für "nur" 4672 US-Dollar. Der hat zwar zwei Kerne weniger als der E7-8860, aber höheren AVX-Basis-Takt (2,2 statt 2,1 GHz) und höher getaktete Turbo-Stufen.

c't konnte sowohl mit einer aktualisierten Blickland-Plattform mit 256 GByte DDR4 als auch mit einem Dell-PowerEdge-R930-Server mit 512 GByte DDR4, beide bestückt mit viermal Xeon E7 8890v3. die Performancesteigerungen von Intel unter Red Hat Enterprise Edition 7.1 überprüfen. Dell ist mit dem neuen E7-Server R930 ein wenig vorgeprescht und hat ihn schon ein paar Tage vor dem offiziellen Lauchtermin des Prozessors vorgestellt (musste dann ein paar Websites wieder offline setzen, beziehungsweise sich mit Informationen über die Prozessoren zurückhalten: "Additional information and availability will be shared when the future Intel Xeon processor E7-8800/4800 v3 and E5-4600 v3 product families are announced", hieß es in Dells R930-Unterlagen zumindest bis vor Kurzem nur noch lapidar.

Tatsächlich wurden in den Tests Intels Angaben häufig sogar deutlich übertroffen, vermutlich weil Intels doch noch recht prototypisches Brickland-Vergleichsystem im c't-Labor noch nicht ganz die volle Leistung bringt, etwa beim Turbo-Modus. Zudem fuhren die neuen Systemen auch die neueste Red Hat Enterprise Linux Edition 7.1 sowie die aktuellen Intel-Compiler (Composer 2015, update 3). Außerdem verwendet c't zum Teil andere Konfigurationen, etwa bei SPEC CPU2006 keine Spezialbibliotheken, keinen 32-Bit Code, keine Autoparallelisierung ...

Dell ist mit dem Power Edge R930 etwas vorgeprescht.

(Bild: Dell)

Der Stream-Speicherbenchmark (V5.10) erreicht so im Performance-Modus auf dem Dell R930 bis zu 264 GByte/s (Triad), zuvor waren es 241 GByte/s – das macht ein Plus von 9,5 Prozent (Intel: 7 Prozent). Im Linpack (OpenMP-version aus der aktuellen MKL11.3) mit 100.000 Gleichungen steigt unter anderem dank FMA der Durchsatz deutlich von 1203 auf 2230 GFlops -- das sind 85 Prozent mehr. Intel gibt Linpack für die MPI-Version mit 75.000 Gleichungen an und kommt damit auf 2105 GFlops (+ 68 Prozent).

Mit 1240 Watt bei Linpack-Volllast sind die Prozessoren im Dell-System zwar nicht gerade sparsam, aber mit 1800 MFlops/Watt hängt dieses in der Effizienz den Vorgänger Xeon E7 4890v2 (1090 MFlops/W) sehr klar ab und überholt damit auch noch den Zwei-Sockel-Kollegen Xeon E5 2997v3 (1705 MFlops/W).

Bei SPEC CPU2006 kann AVX2 und FMA noch nicht so viel ausrichten, aber mit 2430 SPECint_rate_base2006 (c't-Szenario) und 1960 SPECfp_ rate_base2006 liegt der Neue etwa 24 Prozent über unseren früheren Messergebnissen auf der offenbar etwas langsameren Brickland-Plattform. Intel beziffert die Szteigerung auf 16 Prozent, erreicht bei SPECfp_ rate_base2006 mit 1940 Punkten auf dem E7-8890v3 aber nahezu exakt denselben Wert wie c't. SPECint_rate_base2006 mit den Heap-Spezialbibliotheken kommt bei Intel auf 2670 Punkte.

Weitere Vergleichsmessungen finden im c't-Labor zur Zeit noch statt, mehr dazu in der nächsten c't (die Ausgabe 12/15 der c't ist ab Samstag, den 16.5.2015, im Handel).

Der Performancezuwachs zum Vorgänger. Der Zuwachs von 6 bei Hana ist allerdings etwas geschönt (siehe Text), der Rest ist aber zum Teil sogar kleiner ausgewiesen, als es die Messergebnisse im c't-Labor ergeben haben

(Bild: Intel)

(as)