Intels Trommelschläge

Atom und Nehalem – das waren die Schwerpunkte der Intel-Entwicklerkonferenz IDF, die im Frühjahr inzwischen nicht mehr in Kalifornien, sondern im Reich der Mitte, des Affenkönigs und des TsingTao-Bieres stattfindet.

64

14.04.2008, 00:00 Uhr

Lesezeit: 17 Min.

c't Magazin

Von

Benjamin Benz
Andreas Stiller

Vorsichthalber nicht mit den Olympischen Spielen, sondern mit dem chinesischen Märchen vom Affenkönig untermalte der Erfinder des IDF und jetzige Chef der Business Unit, Pat Gelsinger, seine Eröffnungsrede vor vielen tausend Entwicklern, etlichen Journalisten und mehreren Dutzend Regierungsvertretern. Die Intel-Architektur könne wie der goldene Zauberstab des Affenkönigs Sun Wukong von ganz klein (im Milliwatt-Bereich) bis ganz schnell (Petaflops) skalieren.

Neue Architekturen und Chips jenseits von 2010/11 auf der sogenannten Tick-Tock-Roadmap brachte Intel auf dem IDF zwar nicht zur Sprache, aber dafür wurden die schon angekündigten Prozessoren Atom, Tukwila und vor allem Nehalem detailliert vorgestellt sowie ein paar damit zusammenhängende Codenamen definiert.

Das Mooresche Gesetz – so Gelsinger – sei auf absehbare Zeit weiter gültig. So sieht er die Supercomputer gegen 2029 die Zetta-Flop-Marke (eine Trilliarde, 10²¹) überschreiten, eine Leistung, die man braucht, um das Wetter für 14 Tage mit maximal möglicher Genauigkeit vorhersagen zu können. Für eine vollständige genetische Simulation einer Zelle reiche schon ein Exa-Flop/s (Trillion), das 2017 möglich werden soll. Heutzutage ist man noch kurz vor dem Petaflop.

Auf der Showbühne konnte zunächst der neue Sechskernprozessor Dunnington seine Leistungsfähigkeit demonstrieren. Er hängte bei 2,66 GHz Takt seinen sockelkompatiblen Vierkern-Vorgänger Tigerton mit 2,93 GHz in einem nicht spezifizierten Benchmark fast um Faktor zwei ab – und verheizte dabei sogar etwas weniger Energie. Ein großer Teil des Zugewinns dürfte dabei dem 16 MByte großen L3-Cache des Dunnington geschuldet sein. Auch die nächste Itanium-Generation Tukwila mit vier Kernen und Hyper-Threading durfte sich erstmals öffentlich zeigen, aber ohne direkten Vergleich zum Vorgänger. Auf dem Vier-Prozessor-System mit 32 Threads lief eine Virtualisierungsdemo unter Red Hat und Solaris. Gegen Ende des Jahres, so erfuhr man hinter den Kulissen, sollen die ersten OEMs mit Tukwila beliefert werden. Systeme dürften aber erst Anfang nächsten Jahres auf dem Markt zu sehen sein.

Relativ kurz war auch die Demonstration der Nehalem-Prozessoren, dafür gingen später die Architekten auf dessen Innenleben in mehreren Tracks intensiv ein. Gelsinger erwähnte auch den Larrabee-Prozessor mit vielen Kernen für Visual Computing, der, wie er daraufhin im Gespräch erklärte, noch in diesem Jahr als Prototyp herauskommen soll. Die erste Version sei allein für Grafikkarten vorgesehen, DirectX- und OpenGL-Interfaces dafür seien in Arbeit. Spätere Larrabee-Versionen könnten sich dann aber auch ums High Performance Computing kümmern.

Atom-Kraftwerke

Nachdem Intel auf so ziemlich jeder IT-Messe in diesem Jahr schon kleine Häppchen zum Stromsparprozessor „Atom“ verraten hat, stand auf dem IDF jetzt die offizielle Vorstellung an. Intel startet mit fünf Versionen des Atom-Prozessors (Codename Silverthorne), die Z500 bis Z540 heißen und in 1000er-Stückzahlen inklusive Chipsatz 45 bis 160 US-Dollar kosten. Zudem verpflichtet sich Intel, eine Embedded-Version die nächsten sieben Jahre lang ausliefern zu können.

Der Einstiegs-Atom Z500 läuft mit 800 MHz und hat eine TDP von lediglich 0,65 Watt. Die drei mittleren Modelle kommen mit 2 Watt aus. Das Spitzenmodell Z540 erreicht 1,86 GHz bei einer Abwärme von 2,4 Watt – immer noch deutlich weniger als Intels aktueller Rekordhalter Core 2 Solo, der bei 5,5 Watt nur maximal 1,33 GHz erreicht. Fürs Nichtstun (Idle Power) beherrschen die Atom-CPUs den C-State 6, den Intel bereits für die Mobilversion des Penryn eingeführt hat. Dabei leert der Prozessor alle Caches und schaltet sie dann zusammen mit der PLL ab. Auch der Kerntakt muss im C6 nicht mehr anliegen und die Spannung kann weit absinken, da ein spezielles 0,3-Volt-SRAM die Register puffert. Die Leistungsaufnahme eines Atom sinkt so auf 0,1 Watt, bei normalen Anwendungen reichen ihm angeblich 0,22 Watt.

Die Hyper-Threading-Funktion der Atoms (ab Z520) weckt Erinnerungen an den Pentium 4: Auch damals versuchte Intel dem Betriebssystem einen virtuellen Kern vorzugaukeln, um damit die Funktionseinheiten besser auszulasten und vor allem Speicherwartezeiten überbrücken zu können. Aktiviert ein Atom Hyper-Threading, steigt die TDP um 0,2 Watt. Alle Varianten haben 512 KByte L2-Cache und sind voll x86-kompatibel, zudem kennen sie die Befehlssatzerweiterungen VT (Virtualisierung), NX (Execute Disable) und SSE3.

Obwohl Intel auf dem IDF lautstark für das Affenkönig-Konzept „Eine Architektur von Milliwatt bis Teraflops“ trommelte, unterscheidet sich ein Atom-Prozessor erheblich von den Core-CPUs. Insbesondere führt er alle Befehle In-Order aus, kann sie also nicht umsortieren, wenn Funktionseinheiten brachliegen. Das vereinfacht aber das Design ganz erheblich, so kommt er mit 47 Millionen Transistoren und 45-nm-Strukturen auf gerade einmal 24,2 mm² Die-Fläche. Mitsamt Gehäuse misst er nur 182 mm² und wird ohne Sockel direkt auf das Mainboard gelötet. Das spart Kosten (für den Sockel) und insbesondere Platz. Zum Vergleich: Schon das Die des aktuellen Core 2 (Penryn) misst 107 mm² und beherbergt zwei Kerne mit zusammen 410 Millionen Transistoren. Doch mit diesem soll Silverthorne gar nicht konkurrieren, zumal er als auf geringe Leistungsaufnahme konzipierte Neuentwicklung bei gleichem Takt langsamer als Penryn läuft. Bestenfalls dürfte er das Niveau des Banias im ersten Pentium M erreichen.

Der kleine Chip soll einerseits Mobile Internet Devices (MID) und andererseits Nettops und Netbooks antreiben. Nettops sind eine Art schwachbrüstige und sehr billige PCs; im Unterschied zu Thin Clients können sie alles aus eigener Kraft ohne Server erledigen. In Analogie dazu versteht Intel unter Netbooks billige Notebooks. Zur Abgrenzung dieser doch sehr unterschiedlichen Segmente muss wieder das Centrino-Label herhalten. Den Aufkleber „Centrino Atom“ sollen nur MIDs tragen, die neben Silverthorne auch den Einchip-Chipsatz Poulsbo und ein Funkmodul nutzen sowie bestimmte Gehäusemaße einhalten. Hingegen brauchen mit „Atom“ beklebte Geräte – der Basic-Mobile-’08-Plattform – keinen Funk, können einen anderen Chipsatz (beispielsweise im Vergleich zu Poulsbo billigere, aber mehr Platz und Strom beanspruchende Varianten des Mobile 965/945) nutzen und dürfen statt Silverthorne auch den billigeren Diamondville (Basic Desktop ’08, Atom DT) mit 4 oder 8 Watt TDP verwenden – dem Intel übrigens weniger Performance zutraut als dem aktuellen Celeron 220 (1,2 GHz).

Helferlein

Der Chipsatz für MIDs, den Intel unter dem Codenamen Poulsbo entwickelte, heißt nun offiziell System Controller Hub (SCH). Für die Embedded-Version alias US15W gibt es bereits ein Datenblatt. Er vereint eine grafikfähige North- und eine Southbridge in einem Chip und misst dabei nur 22 mm x 22 mm. Den Chipsatz fertigt Intel noch im 45-nm-Prozess und so schluckt er mit einer durchschnittlichen Leistungsaufnahme von 0,6 bis 0,8 Watt viel mehr als der Prozessor.

Den Grafikkern hat Intel von der Firma Imagination Technologies zugekauft. So verstecken sich hinter dem Intel-Namen GMA 500 die 2D/3D-Engine PowerVR SGX und der HD-Videobeschleuniger PowerVR VXD (H.264, MPEG-2, VC1 und WMV9). Der PowerVR-SGX-Kern soll OpenGL 2.0 sowie Microsofts Shader Model 3 unterstützen; allerdings propagiert Intel für die MIDs hauptsächlich (Moblin-)Linux. Intel hatte angekündigt, dass Poulsbo externe Displays mit Auflösungen bis zu 1366 x 768, 1280 x 1024, 1080i oder 720p digital ansteuern kann und auch HD-Videos in diesen Formaten dekodiert.

Das einkanalige Speicher-Interface spricht maximal 1 GByte DDR2-Speicher an. Von den acht USB-2.0-Ports ist einer als Client konfigurierbar. Zudem stehen zwei PCIe-x1-Schnittstellen und drei Ports für SD- oder MMC-Karten zur Verfügung. Ein SATA-Adapter fehlt; Massenspeicher werden per PATA, SD oder USB angebunden. Die noch für dieses Jahr versprochenen schnellen SSDs mit nativer SATA-2-Schnittstelle und 32 bis 160 GByte passen folglich nicht. Schade, denn sie sollen sich mit rund 100 Milliwatt begnügen. Die Vermarktung derselben will Intel – wie Pat Gelsinger im Interview bekräftigte – allerdings nicht selbst übernehmen.

Konquistador

Zwar brauchen mobile Atom-Systeme alias MIDs schon deutlich weniger Platz und Strom als bisherige UMPCs mit Core-2-Prozessor, dennoch dürften sie kaum kleiner als ein Taschenbuch oder ein fetter PDA werden. Erst mit der nächsten Atom-Generation (Codename Moorestown) will Intel den bislang von ARM dominierten Markt der Smartphones und PDAs erobern. Dann wandern Speicher-Controller und Grafikkern in den Prozessor. Ein Wireless-Modul mit SDR (Software Defined Radio) soll dann WLAN, WiMax, Bluetooth und HSDPA gemeinsam beherrschen. Erst so ein Atömchen ließe sich dann in Smartphone-Gehäuse einbauen, die man gerne ständig mit sich herumträgt. Eine noch unbestückte aber nur Streichholzschachtelgroße Platine zeigte Ultramobil-Chef Anand Chandrasekher schon einmal herum.

Intels Hauptargument pro IA32 – die Bezeichnung x86 vermied Intel konsequent – und kontra ARM ist die große Verfügbarkeit von Internet-Software für die Intel-Architektur. So zeigte Chandrasekher auch eine Grafik, die Darstellungsfehler von gängigen Webseiten in Browsern auf Intel- und ARM-CPUs verglich. Allerdings hinkt diese Argumentation, da dieser Vorteil nur für Windows gilt. Viele Netbooks und MIDs werden indes (erst einmal) unter Linux laufen, weil Microsoft keine für die eingeschränkte Hardware vernünftig angepasste Windows-Version zustande bekommt. Viele Atom-Geräte sind für Windows XP oder gar Vista zu schwachbrüstig. Vor allem mit den kleinen Displays kommt Windows nicht gut zurecht. Unter Linux funktionieren indes Plug-ins, ActiveX-Controls oder Codecs nur eingeschränkt und viele Internet-Seiten sind auf den Microsoft Explorer zugeschnitten.

Den Stromverbrauch will Intel laut Gelsinger durch modernere (32-nm-)Fertigungstechnik und Optimierungen der IA32-Architektur auf ein konkurrenzfähiges Niveau senken. Zu Letzterer sagte er frank und frei: „Wir haben ja lange genug ARM-Kerne (alias XScale) gebaut.“ Daraufhin hätte man den Stromverbrauch der eigenen Architektur sehr genau analysiert und sei zu dem Schluss gekommen, mit einigen Modifikationen in ähnliche Bereiche vordringen zu können.

Schul-PC

Während der Keynote zitierte Intels Forschungschef Andrew Chien zwei chinesische Kinder mitsamt ihrer Lehrerin auf die Bühne, um die zweite Generation der Classmate PCs vorzustellen. Sie sollten zeigen, wie robust die neuen Rechner sind und warfen sie mit sichtlichem Spaß – aus recht niedriger Höhe – herunter.

In der Edelausstattung bekommt der Schüler-Laptop ein 9-Zoll-Display und eine Festplatte mit 30 GByte – die erste Version hatte nur 2 GByte Flash-Speicher. Zudem soll es auch Modelle mit kleineren Displays geben. Einem nicht näher bezeichneten Celeron-M-Prozessor sollen 512 MByte Hauptspeicher zur Seite stehen. WLAN nach 802.11b/g sorgt für die Drahtlosverbindung, und wie schon der XO-Konkurrent von One Laptop per Child (OLPC) soll nun auch der neue Schüler-Laptop Mesh-Netzwerke bauen können: Fehlt einem Classmate PC die direkte Anbindung zum Access Point, dann können andere Classmate PCs als Relaisstation dienen.

Über Chipsatz und Kern des Celeron M machte Intel keine Angaben. Der CPU-Dinosaurier passt natürlich nicht zu den IDF-Highlights mit stromsparenden Mobilplattformen und Atom-Prozessoren, deshalb versicherte Chien, dass zukünftige Classmate PCs selbstverständlich einen Atom-Prozessor haben werden. Dann könnten auch deutlich längere Akkulaufzeiten drin sein. Die erste Classmate-Generation lief bei unseren Tests nur etwa 4,5 Stunden mit einer Akkuladung. Sicherheitshalber hingen Intels Vorführgeräte auf der Keynote am Stromnetz.

Nehalem in Fachchinesisch

Mehrere Vorträge, manche allerdings in Mandarin, kümmerten sich um das Innenleben des Nehalem und um die Systeme mit dem Tylersburg-Chipsatz. Der leitende Architekt Ronak Singhal hielt seine Präsentation zum Glück auf Englisch.

Im Blockschaltbild sind zahlreiche Ähnlichkeiten zum Core-Vorgänger Merom unverkennbar. Hier wie dort sind vier Decoder am Werk, die die übersetzten Mikrooperationen parallel in den Scheduler (Reservation Station, gemeinsam für alle Instruktionen) einspeisen. Von dort geht es wie gehabt über sechs Ports an die diversen Funktionseinheiten.

Der wichtigste Unterschied im eigentlichen Kernbereich ist das Hyper-Threading, das Nehalem vom Pentium 4 geerbt hat – schließlich wurde er von den Pentium-4-Designern entwickelt. Der Loop-Stream-Detector, der kleine Schleifen erkennt und diese dann zügig ohne Belastung der Sprungvorhersageeinheit ausführen kann, wurde jetzt hinter die Decoder verlagert, sodass der Prozessor kleinere Schleifen noch schneller ausführen kann. Das maximal überwachte Instruktionsfenster im Merom lag bei 18 x86-Instruktionen, bei Nehalem sind es 24 µOps.

Die diversen Zwischenspeicher (Reservation Station, ROB, Load- und Store-Buffer) wurden vergrößert, insgesamt hält Nehalem nun bis zu 128 µOPs gleichzeitig in Bearbeitung, gegenüber 96 beim Merom. Die Makroop-Fusion des Nehalem fusioniert nun auch TEST/CMP mit JG, JL, JGE oder JLE. Wichtig ist, dass sie nun auch im 64-Bit-Modus funktioniert. Allerdings ist der Prefetch-Buffer immer noch 16 Byte klein, was für 64-Bit-Software und vier Pipelines nicht wirklich reicht. Zum Vergleich, AMDs K10 bietet seinen drei Pipelines einen doppelt so großen Prefetch-Buffer. Die Sprungvorhersageeinheit und die Return Stacks des Nehalem wurden verbessert und viele weitere Feinheiten, die man auf dem Blockschaltbild nicht sieht:

Die Befehlserweiterung SSE4.2, die unter anderem leistungsfähige Stringbefehle mitbringt. Pro SSE-Einheit kann man damit bis zu 128 Zeichen gleichzeitig vergleichen.
Verbesserung in der Virtualisierung mit schnellerem Wechsel zwischen Hypervisor und VM sowie mit Extended Page Tables. Außerdem bekommen die virtuellen Prozessoren eigene VPIDs, sodass die TLBs unnötiges Entleeren vermeiden können.
Bessere Behandlung nicht alignter Zugriffe auf den Daten-Cache. Die speziellen alignten MOV-Befehle sind nun überflüssig und die unalignten weit schneller als zuvor.
Verriegelungen via LOCK und XCHG, wie sie bei Multithreaded Software häufig vorkommen, wurden um 50 Prozent beschleunigt.

Der Daten-TLB (Translation Lookaside Buffer) ist bei Nehalem allerdings deutlich kleiner als zuvor, dafür kam ein L2-TLB mit 512 Einträgen (gemeinsam für Instruktionen und Daten) hinzu. Auch der L2-Cache ist mit seinen 256 KByte erheblich kleiner als bei Merom, als Ausgleich hat man jetzt den großen gemeinsamen L3-Cache von 8 MByte. Ein kleinerer L2-Cache ermöglicht zudem schnellere Zugriffe, die Singhal mit weniger als 12 Takten spezifizierte. Zugriffe auf den L3-Cache sollen 30 bis 40 Takte brauchen.

Nichtkern

Der L3 gehört zusammen mit den drei Speicher-Controllern und den neuen seriellen Links QuickPath zum Nichtkernbereich (Uncore), der allen Kernen – zwei bis acht sind geplant– zur Seite steht. Uncore, so Singhal, wird getrennt mit Spannung und Takt versorgt, was effizienteres Powermanagement möglich macht. Die neuen Nehalem-Fassungen unterstützen also auch Split-Voltage. Die Datentransferrate zum Speicher ist viermal so hoch wie beim aktuellen Quad-Core-Xeon Harpertown mit FSB1600 auf dem Chipsatz 5400 (Seaburg/Stoakley). Ein Zweiwegesystem mit insgesamt sechs DDR3-1333-(PC3-10600-)Speicherkanälen kommt auf rund 64 GByte/s. Die Latenzzeit beim Zugriff auf lokalen Speicher liegt bei 60 Prozent derjenigen vom Harpertown FSB1600. Selbst Zugriffe auf den Speicher eines anderen Prozessors über den QuickPath-Link (remote memory) sind immer noch schneller als beim Harpertown über die Northbridge.

Benchmark-Ergebnisse zur Performance präsentierte Intel noch nicht, die Werte für die CPU2006 Suite der SPEC, insbesondere die der Gleitkomma-Suite, sollen aber „atemberaubend“ sein. Darauf deutete bereits eine Präsentation hin, die im Februar auf einem Sun-Server in Österreich aufgetaucht war.

Prozessoren mit Nehalem-Innenleben sollen zunächst für Server und Workstations mit zwei Prozessorfassungen sowie für High-End-Desktop-Rechner mit einer CPU-Fassung erscheinen; mindestens eine dieser Produktvarianten steht noch 2008 an. Das Nehalem-Derivat mit zwei QuickPath-Interconnects für DP-Server und Workstations soll Gainestown heißen, ist also Nachfolger des aktuellen Quad-Core-45-nm-Xeons Harpertown. Gainestown hat vier physische, dank Hyper-Threading also acht logische CPU-Kerne. Zusammen mit dem Tylersburg ergibt das die Plattform Thurley mit bis zu 16 logischen Kernen.

Der Single-Socket-Nehalem mit nur einem QPI-Anschluss, der also nur den Chipsatz und keinen weiteren Prozessor anbinden kann, soll Bloomfield heißen (mit vier physischen Kerne). Auch hier kommt der Chipsatz Tylersburg zum Einsatz. Mit zwei Tylersburg-Bausteinen lassen sich wohl bis zu vier PCIe-2.0-Grafikkarten anbinden – etwa die Fire-GL-Karten vom Konkurrenten AMD/ATI. Die Codenamen Gainestown, Tylersburg, Thurley und Bloomfield hat Intel inzwischen offiziell bestätigt.

Später – also erst 2009 – sind dann Nehalem-Varianten für Desktop-Rechner namens Lynnfiled und Havendale eingeplant, die zum Teil auch Grafikcontroller enthalten sollen. Und noch später soll dann auch der dicke MP-Xeon mit bis zu acht Kernen (Beckton) herauskommen. Den hatte Intels CEO Paul Otellini auf dem letzten IDF eigentlich noch für 2008 versprochen – das war aber ein kleines Missverständnis des Chefs, so Gelsinger im Gespräch. (as)