IDF: Intel enthüllt Nehalem-Architektur [Update]

Der Atom-Prozessor steht zwar erklärtermaßen im Mittelpunkt des IDF, aber Intel verriet auch Details zu den anderen neuen Prozessorarchitekturen.

68

02.04.2008, 16:52 Uhr

Lesezeit: 7 Min.

Von

Andreas Stiller

Das Blockschaltbild der Ausführungseinheiten ähnelt sehr dem Merom -- aber es gibt anderswo auch viele Unterschiede — Das Blockschaltbild der Ausführungseinheiten ähnelt sehr dem Merom -- aber es gibt auch viele Unterschiede

Der Atom-Prozessor steht zwar erklärtermaßen im Mittelpunkt des Intel-Entwicklerforums, aber am ersten IDF-Tag gab Intel auch Details zu den anderen neuen Prozessorarchitekturen bekannt, vor allem zum Nachfolger der Merom/Penryn-Prozessoren mit Core-Architektur mit Codenamen Nehalem – einen offiziellen Namen gibt es noch nicht. Businesschef Pat Gelsinger hat zwar schon vorab einige Eckdaten der amerikanischen Presse verraten, jetzt kamen aber noch viele Feinheiten hinzu.

Ähnlichkeiten zu den Vorgängern sind dabei unverkennbar, dennoch gibt es wesentliche Unterschiede. Beim Nehalem ist es vor allem der Nicht-Kern-, also "Uncore"-Bereich, der den integrierten Speichercontroller für bis zu drei DDR3-Kanäle, die bis zu vier QuickPath-Links und den 8 MByte großen L3-Cache umfasst. All das gab es bei Merom gar nicht. Dieser Uncore-Bereich kann – wie bei AMD K10 – mit eigenem Takt und eigener Spannung betrieben werden, um Energie zu sparen.

Hyper-Threading kehrt zurück -- aber mit mehr Effizienz

Der Aufbau der Pipeline und das Blockschaltbild der Funktionseinheiten sehen auf den ersten Blick recht Merom-artig aus. Hier wie dort sind vier Decoder am Werk, die die übersetzten Mikrooperationen parallel in den Scheduler (Reservation Station, gemeinsam für alle Instruktionen) einspeisen. Von dort geht es wie gehabt über sechs Ports an die diversen Funktionseinheiten. Schaut man genauer hin, findet man dann doch zahlreiche Verbesserungen:

Vom Pentium 4 hat der Prozessor das Hyper-Threading geerbt (Simultaneous Multi-Threading, SMT), das aber jetzt wesentlich effizienter sein soll. Gegenüber dem Betriebssystem präsentiert sich jeder Kern als virtueller Doppelkern.
Der L2-Cache ist mit 256 KByte zwar relativ klein, er soll aber besonders schnelle Zugriffe gestatten.
Die internen Buffer und die Reservation Station wurden vergrößert. 128 µOps kann der Prozessor nun gleichzeitig in Arbeit haben, bei Merom waren es nur 96.
Zu den Adressübersetzungsspeichern (Translation Lookaside Buffer, TLBs) hat sich ein gemeinsamer Level-2-TLB gesellt, der mit 512 Einträgen größer, aber auch etwas langsamer ist. Er speichert lediglich kleine Seiten.
Die Makroop-Fusion wurde um ein paar konditionierte Sprungbefehle erweitert. Sie funktioniert zudem nun auch im 64-Bit-Modus. Den Prefetch-Buffer hat Intel allerdings weiterhin auf nur 16 Bytes belassen, was für den Betrieb von vier Pipelines im 64-Bit-Modus arg knapp ist. Die Füllrate aus dem Instruktions-Caache soll aber deutlich schneller sein als bei Merom.
Der Loop-Stream-Detector, der kleine Schleifen erkennt und diese dann zügig ohne Belastung der Sprungvorhersageeinheit ausführen kann, wurde hinter die Dekoder verlagert, sodass der Prozessor kleine Schleifen noch schneller ausführen kann. Das maximale Instruktionsfenster im Merom lag bei 18 x86-Instruktionen, bei Nehalem sind es 24 µOps.
Die Virtualisierung wurde beschleunigt (schnelleres Umschalten zwischen Hypervisor und und virtueller Maschine). Die Speicherverwaltung ist bei Nehalem ebenfalls virtualisiert (Extended Page Tables). Außerdem bekommen die virtuellen Prozessoren eigene VPIDs, so dass die TLBs unnötiges Entleeren vermeiden können.
Mit unalignten Cachezugriffe kann Nehalem nun weit besser umgehen. Auf die speziellen Befehle zum Einlesen alignter Daten für die SSE-Einheit kann man dann ganz verzichten.
Das für den Multicore-Betrieb wichtige Protokoll zum Verriegeln von Speicherzugriffen (Lock, XCHG) wurde gegenüber Merom um 50 Prozent beschleunigt.
SSE4 bekommt mit SSE4.2 neue Befehle unter anderem zu Stringvergleichen hinzu.
Die Datentransferrate zum Speicher ist viermal so hoch wie beim aktuellen Quad-Core-Xeon Harpertown mit FSB1600 auf dem Chipsatz 5400 (Seaburg/Stoakley). Ein Zweiwegesystem mit insgesamt sechs DDR3-1333-(PC3-10600-)Speicherkanälen kommt auf rund 64 GByte/s.
Die Latenzzeit beim Zugriff auf lokalen Speicher liegt bei 60 Prozent derjenigen vom Harpertown FSB1600. Selbst Zugriffe auf den Speicher eines anderen Prozessors über den QuickPath-Link (remote memory) sind immer noch schneller als beim Harpertown.

Benchmark-Ergebnisse zur Performance präsentierte Intel noch nicht, die Werte für die CPU2006 Suite der SPEC, insbesondere die der Gleitkomma-Suite, sollen aber "atemberaubend" sein. Darauf deutete bereits eine Präsentation hin, die im Februar auf einem Sun-Server aufgetaucht war.

[Update:] Prozessoren mit Nehalem-Innenleben sollen zunächst für Server und Workstations mit zwei Prozessorfassungen sowie für High-End-Desktop-Rechner mit einer CPU-Fassung erscheinen; mindestens eine dieser Produktvarianten steht noch 2008 zu erwarten. Das Nehalem-Derivat mit zwei QuickPath-Interconnects für DP-Server und Workstations soll Gainestown heißen, ist also Nachfolger des aktuellen Quad-Core-45-nm-Xeons Harpertown. Gainestown hat vier physische, dank Hyper-Threading also acht logische CPU-Kerne. Zusammen mit dem Chipsatz Tylersburg ergibt das die Plattform Thurley mit bis zu 16 logischen Kernen.

Der Single-Socket-Nehalem mit nur einem QPI-Anschluss, der also nur den Chipsatz und keinen weiteren Prozessor anbinden kann, soll Bloomfield heißen (4 physische Kerne). Auch hier kommt der Chipsatz Tylersburg zum Einsatz. Mit zwei Tylersburg-Bausteinen lassen sich wohl bis zu vier PCIe-2.0-Grafikkarten anbinden. Die Codenamen Gainestown, Tylersburg, Thurley und Bloomfield hat Intel offiziell bestätigt.

Später – also erst 2009 – sind dann Nehalem-Varianten für Desktop-Rechner eingeplant, hier munkelt man vom Vierkern Lynnfield (Vorgänger: Yorkfield) und vom Wolfdale-Nachfolger Havendale, der zwei physische CPU-Kerne und eine GPU enthalten soll. Havendale und Lynnfield bringen jeweils auch einen PCIe-Port für PEG-Karten mit, aber keinen QPI-Link, sondern sie kommunzieren mit einem Platform oder System Controller Hub (PCH/SCH Ibexpeak) wie die bisherigen Chipsatz-Northbridges über das PCIe-ähnliche Direct Media Interface (DMI). Noch später dürfte die Nehalem-Mobilversion für Notebooks kommen, die Auburndale heißen könnte.

Im Bereich der Multi-Prozessor-(MP-)Xeons, wo im Laufe dieses Jahres der Hexa-Core Dunnington den aktuellen Tigerton (Xeon 7300) auf der Caneland-Plattform (Chipsatz: Clarksboro) ablösen soll, zieht Nehalem auch frühestens 2009 ein. Hier spricht Intel von der Plattform Stoutland; laut Berichten im Internet gehören dazu Prozessoren namens Beckton und Chipsätze namens Boxboro. Die Beckton-Nehalems dürften bis zu acht physische Kerne und vier QPI-Ports aufweisen, lassen sich also mit drei weiteren Prozessoren direkt verbinden. Diese Fähigkeit hatte Pat Gelsinger bereits im letzten Jahr angekündigt.

Mehr zum IDF Shanghai 2008: