Intel stellt neuen Serverprozessor mit acht Kernen vor [update]

Während von Intels vor Wochen vom Stapel gelaufenen Itanium-Prozessor Tukwila bislang noch kein einziger Benchmark veröffentlicht wurde, überschüttet Intel den Start des hauseigenen Konkurrenten, des Achtkerners Nehalem-EX, mit Benchmark-Rekorden zuhauf.

In Pocket speichern vorlesen Druckansicht 64 Kommentare lesen
Lesezeit: 6 Min.
Von
  • Andreas Stiller

Während von Intels vor Wochen vom Stapel gelaufenen Itanium-Prozessor Tukwila bislang noch kein einziger Benchmark veröffentlicht wurde, überschüttet Intel den Start des hauseigenen Konkurrenten, des Achtkerners Nehalem-EX, mit Benchmark-Rekorden zuhauf. Etwa für Vierprozessorsysteme: TPC-E (2022.64 tpsE, Rekord für alle Systeme) , SAP SD (10450 User, Rekord für Windows Server), SPECjbb2005 (2.012.730 bops, Rekord für x86) , VMmark (71.85 @ 49 Tiles, Rekord für alle Systeme) und viele mehr.

Mit 2,3 Milliarden Transistoren (45-nm-Technik) ist der Nehalem-EX derzeit der zweitgrößte Chip, hinter Nvidias Fermi (3 Milliarden) und weit vor IBMs Power7, der sich dank L3-Cache in EDRAM auf 1,2 Milliarden Transistoren beschränkt.

Jede Menge Rekorde zum Stapellauf

(Bild: Intel)

Mit der Performance von IBMs Achtkerner Power7 kann sich der Nehalem-EX in den direkten Vergleichen indes zumeist nicht messen, aber er liefert sich mit AMDs gestern vorgestelltem 12-Kern-Prozessor Magny-Cours (2 x 900 Millionen Transistoren) ein packendes Rennen. Gegenüber seinem MP-Vorgänger Xeon-7460 (Dunnington) kann sich der neue Nehalem-EX jedoch mit bis zu dreifacher Performance in Szene setzen, Intel spricht daher vom größten Performance-Sprung in der Geschichte der Xeon-Serverprozessoren. Zudem kann man bis zu acht Prozessoren direkt ohne Zusatzhardware ("glueless") miteinander verkoppeln.

Jeder Prozessor der 7500-Famile (im 1567-poligen Sockel) besitzt dazu vier QPI-Links, mit denen er mit den anderen oder dem Boxboro-Chipsatz kommuniziert. Der DDR3-Speicher (1066 MHz) wird pro Prozessor über zwei integrierte Speichercontroller, vier Scalable Memory Interfaces und zwei externe Scalable Memory Buffer angesprochen – bis zu 16 DIMMs pro Sockel sind dann im Zugriff, was für ein Vierprozessorsystem bis zu 1 Terabyte Speicher (mit 16 GByte DIMMs) ermöglicht.

Launchpartner IBM hat das Konzept für die EX5-Serverfamilie sogar noch erweitert und wartet mit einer über QPI angekoppelten externen Speichererweiterung auf. Auch Dell bietet eine Besonderheit: Ein selbst entwickelter Brücken-Chip (FlexBridge) kann statt eines Prozessors in den Sockel gesteckt werden und macht so den dort angeschlossenen Speicher den anderen Prozessoren via QPI zugänglich. Damit können insbesondere Zweiprozessorsysteme theoretisch über bis zu 1 Terabyte Speicher verfügen. Dells Rack-Server R810 bietet allerdings nur 32 DIMM-Slots, ergo maximal 512 GByte Speicherplatz.

Vor allem für Datenbanken sind solche Konstellationen mit viel Speicher und wenig Prozessoren interessant, weil man hier häufig hohe Lizenzgebühren pro Sockel oder Kern entrichten muss. Die große Speichermenge zeichnet die Nehalem-EX-Zweiprozessorsysteme auch vor dem hauseigenen Sprinter Xeon-Westmere-EP aus, der dank seines höheren Taktes von 3,33 GHz und den schneller angebundenen DDR3-1333-Speicher seine geringere Anzahl von Kernen locker ausgleichen kann. Zudem gibt es erweiterte Zuverlässigkeitsfeatures wie Memory-Scrubbing, das den Speicher im Betrieb im Hintergrund testet. Dadurch können auch die Boot-Zeiten der Systeme mit 256 GByte und mehr angenehm kurz werden.

Mit 10.400 SPECint_rate_base2006 schafft die mit 64 Nehalem-EX-Prozessoren arbeitende SGI Ultraviolet ein Allzeithoch in dieser Disziplin. Sie überholt dabei die hauseigene SGI Altix, die mit achtmal mehr DC-Itanium-2-Prozessoren 9031 Punkte erzielt. Bei SPECfp_rate_base2006 muss sie sich mit 6840 Punkten allerdings hinter der Altix einreihen (10.583). Die kleineren Server mit 8, 4 und 2 Prozessoren haben bei den CPU2006-Werten gegen IBMs Boliden Power7 zwar keine Chance, aber sie dominieren zumindest im Integer-Bereich die x86-Welt. Vergleiche mit AMD Magny-Cours sind allerdings schwierig, da AMD bei CPU2006 bislang nur Peak-Werte angibt, Intel jedoch Base-Werte.

Die Basewerte kann man bei AMD jedoch im Vergleich zu den veröffentlichten Werten mit dem Sechskern-Prozessor Istanbul einigermaßen abschätzen, etwa für ein Vierwege-System mit Opteron 6174 mit einem Peak-Wert von 756 SPECint_rate2006 zu etwa 630. Intel kommt in dieser Disziplin für viermal Xeon X7560 auf 723. Bei SPECfp_rate2006 dürfte AMDs Base-Wert bei 553 liegen – da Intel hier keinen Rekord setzen kann, hat man den bislang auch noch nicht veröffentlicht. Er dürfte bei knapp über 500 liegen.[Update: ist inzwischen für IBM 3850 X5 online -- liegt mit 543 SPECfp_rate2006 wohl ganz knapp darunter]

Im CPU2006-Testszenario von c't ohne herstellertypische Spezialoptimierung und gemessen unter Windows Server 2008R2 kommt ein Intel-Referenzsystem mit viermal X7560 auf 500 SPECint_rate2006 und 412 SPECfp_rate2006.

Bei den Zweiwegesystemen liegen das Dell-Rack R810 (2 × Xeon X7560, 2,27 GHz, DDR3-1066, FlexBridge) und das AMD-Testsystem (2 × Opteron 6174, DDR-1333) ziemlich genau gleichauf: beide erreichen 268 bei SPECint_rate-base2006 und 214 respektive 224 bei SPECfp_rate-base2006. Im Cinebench 11.5 obsiegt Dell knapp mit 14,85 zu 14,38 dafür hat Magny-Cours eine deutlich höhere Speicherperformance mit knapp 50 GByte/s im Vergleich zu dem mit 26,8 GByte/s etwas geruhsam agierenden Dell System.

[update2: Dell verweist hier auf den Vorseriencharakter des Testmodells beziehungsweise des BIOS. Das Serienmodell weist nach Angaben der Entwickler mit neuem BIOS ein höhere Speicherperformance auf.]

Bei den hier zugrunde liegenden Benchmark-Vergleichen sind aber auch die Preise zu berücksichtigen: Intels Spitzenprozessor X7560 kostet mit 3692 US-Dollar (OEM-Preis) mehr als das Dreifache des Opteron 6174 (1165 Dollar). Um Zweiprozessorsysteme mit Nehalem-EX etwas günstiger anbieten zu können, hat Intel dafür die Xeon-65xx-Familile ersonnen, die mit weniger und zum Teil langsameren QP-Links, weniger L3-Cache und niedrigerem Takt angeboten werden.

Insbesondere aber verbrauchten die neuen Opteron-Systeme weit weniger Energie: Reduziert auf die gleiche Ausstattung (64 GByte Speicher, zwei Festplatten, ein Netzteil) kommt das Dell-Rack R810 auf 267 Watt im Leerlauf und 522 Watt unter Volllast (mit SPECjbb2005). Das Magny-Cours-Testsystem beschränkt sich auf 132 Watt Idle und 376 Watt unter Volllast. Auch wenn man für einen voll ausgestatteten Server da noch 30 oder 40 Watt für System Management Controller und zusätzliche GbE-Schnittstellen (Dells R810 hat vier) hinzurechnet, sind die Unterschiede beträchtlich.

Intel Xeon 6500- und 7500-Familien (Nehalem-EXt)
Prozessor Sockel Kerne/ Threads Kern-Takt Speicher-Takt Turbo
X7560 8 Skt 8/16 2,26 GHz 1066 MHz +3
X7550 8 Skt 8/16 2 GHz 1066 MHz +3
X7542 8 Skt 6/6 2,66 GHz 1006 (978) MHz +1
E7540 8 Skt 6/12 2 GHz 1066 MHz +2
E7530 8 Skt 6/12 1,86 GHz 1066 (978) MHz +2
E7520 4 Skt 4/8 1,86 GHz 800 MHz -
L7555 8 Skt 8/16 1,86 GHz 1066 (978) MHz +5
L7545 8 Skt 6/12 1,86 GHz 1066 (978) MHz +5
X6550 2 Skt 8/16 2 GHz 1066 MHz +3
E6540 2 Skt 6/12 2 GHz 1066 (978) MHz +2
E6510 2 Skt 4/8 1,73 GHz 800 MHz -
Intel Xeon 6500- und 7500-Familie (Nehalem-EX)
Prozessor L3-Cache QPI TDP HT OEM-Preis
X7560 24 MByte 6,4 GT/s 130W Ja $3692
X7550 18 MByte 6,4 GT/s 130W Ja $2729
X7542 18 MByte 5,86 GT/s 130W Nein n.n
E7540 18 MByte 6,4 GT/s 105W Ja $1980
E7530 18 MByte 5,86 GT/s 105W Ja $1391
E7520 18 MByte 4,8 GT/s 95W Ja $856
L7555 24 MByte 5,86 GT/s 95W Ja $3157
L7545 18 MByte 5,86 GT/s 95W Ja $2087
X6550 18 MByte 6,4 GT/s 130W Ja $2461
E6540 18 MByte 5,86 GT/s 105W Ja $1712
E6510 12 MByte 4,8 GT/s 105W Nein $744

(as)