Wiedergeburt der Geschwindigkeit

„Speed matters again“ - mit diesem optimistischen Motto eröffnete Intel-Chef Paul Otellini das Herbsttreffen der Intel-Entwicklergemeinde. Stolz präsentierte Otellini den rund 7000 nach San Francisco angereisten Entwicklern sowie einigen hundert Journalisten den Wafer mit den ersten TeraFLOP-Prozessoren.

16.10.2006, 00:00 Uhr

Lesezeit: 16 Min.

c't Magazin

Von

Andreas Stiller

Erst ein, zwei Tage vor dem IDF - so Justin Rattner im Gespräch mit c't - kam der Wafer mit den ersten Terascale-Experimentierchips im Silicon Valley an. Fertige, ins Gehäuse verpackte Chips gabs noch nicht, man wusste nicht einmal, ob die Cores überhaupt funktionieren. Gleich 80 kleine Kerne, jeweils mit Router und Cache bestückt, packte Intel beim Terascale-Prozessor zusammen auf einen Chip von 302,5 mm² - hergestellt vermutlich noch im 65-nm-Prozess.

Es handelt sich dabei nicht um einen kompletten x86-Kern, sondern im Wesentlichen nur um eine Vierfach-SIMD-Einheit, die pro Takt vier Gleitkommaoperationen in einfacher Genauigkeit ausführen kann. Somit kommt der ganze Terascale-Chip bei 3,16 GHz auf 80 · 4 · 3,16 = 1,011 TeraFLOPS/s.

Watts up coming from Hillsboro?

Der (statische) Speicher von derzeit 20 MByte soll außerdem über eine Stack-Technik direkt an die Cores angebunden werden. Das ist dann ein Sandwich aus einem Prozessor- und einem Speicherchip (Die), bei dem alle 80 Kerne gleichzeitig mit ihrem lokalen Speicher über eine Vielzahl mikroskopisch kleiner Pads von etwa 50 µm Durchmesser kommunizieren können. Die Summendatenrate liegt damit bei über einem TeraByte/s. Ein wenig ähnelt das Ganze der Synergistic Processing Unit des IBM-Cell-Prozessors, nur dass nicht 8, sondern gleich 80 solcher Einheiten auf einem Chip vereint sind.

Derzeit ist alles noch im Experimentierstadium. In etwa fünf Jahren, so Rattner, könnte es ein fertiges Produkt werden, bestehend aus vielleicht weit über hundert vollständigen x86-Kernen, hergestellt dann schon in 32-nm-Technik.

Eine weitere Forschergruppe aus Rattners Terascale-Initiative kümmert sich derweil um schnellere Kommunikationsmöglichkeiten zwischen den Chips, den Boards etwa in einem Blade-Server (Backplane), zwischen Clusterknoten und Speichersubsystemen. Kupferleitungen sind hier langsam am Ende der Fahnenstange angelangt: Optik ist angesagt.

The Terascale Monster

Intel hat nun in Zusammenarbeit mit der Universität von Kalifornien in Santa Barbara den letzten Schritt geschafft, alle für eine optische Übertragung notwendigen Einheiten auf einen CMOS-Chip zu vereinen. Es fehlte noch die „Lampe“ zur Anregung des Raman-Lasers. Diese kam jetzt in Form einer Hybrid-Technik mit „aufgeklebter“ Indiumphosphid-Schicht hinzu, wobei eine etwa 25 Atomlagen dicke glasförmige Siliziumoxidschicht als Klebstoff fungiert. Der vorgezeigte Prototyp arbeitet mit vier Kanälen - geplant sind derer 25, ein jeder mit 40 GBit/s, die alle über einen optischen Multiplexer auf ein einziges Glasfaserkabel konzentriert werden. Das ergibt dann insgesamt ein Terabit/s Datenrate pro Fiber. Bis man diese auch vom Internet-Provider bis nach Hause geliefert bekommt, dürfte es aber noch ein bisschen dauern.

Energieeffizienz ist ein weiteres wichtiges Forschungsthema. Man könnte beispielsweise erheblich effizientere Stromversorgungen bauen, wenn diese nur noch eine einzige Spannung, etwa 12 V, erzeugen müssten. In Datenzentren geht zudem ein großer Anteil für die zahlreichen Transformationen, Konvertierungen, Ladevorgänge und USV verloren. Mit herkömmlicher Technik lässt sich jedoch ein DC-Konzept mit High-Voltage-Gleichspannung von 360 V realisieren, erzeugt in der USV, angeschlossen an das US-Starkstromnetz von 480 V. Am Ende der Kette in den Servern befindet sich ein moderner DC-DC-Konverter hinab zu 12 V. Bis zu 60 Prozent bessere Energieausnutzung wären auf diesem Wege bei großen Datenzentren im Megawattbereich drin. Die Demo, die Intels Power System Architect Tom Aldrige während Rattners Keynote vorführte, war auf ein paar kleinere Server von wenigen Kilowatt beschränkt. Bei ihnen sank die Energieaufnahme von 3800 auf 3300 Watt, also um rund 14 Prozent. Und so warf Aldrige ein altes 12-V-AC/DC-Netzteil in den bereitstehenden „Abfalleimer obsoleter Technologien“, in dem sich, oh Wunder, bereits ein Opteron-Prozessor befand. Nach den Worten von Rattner war der wohl schon in einem früheren Talk dort hineingeworfen worden.

Boggarts

So beeindruckend die Terascale-Aussichten auch sind, vielleicht aber war eine ganz andere IDF-Vorstellung die revolutionärste: die programmierbare Materie. An dieser Technik forscht Intel zusammen mit Wissenschaftlern der Carnegie Mellon Universität (CMU). Unter dem unscheinbaren Namen „Dynamic Physical Rendering“, arbeiten die Wissenschaftler an einer Kombination von Nanotechnik und Robotik, auch Claytronics genannt. Millionen kleiner Materieteilchen, Catome getauft, sollen programmierbar, gekittet über magnetische oder elektrostatische Felder, jede gewünschte Form annehmen können. Harry Potters Irrwisch, der Terminator III oder Michael Crichtons Schwärme grüßen also nicht nur, sondern nehmen so langsam Gestalt an. Experimentiert wird vor allem mit Silicon-on-Insulator-Technik (SOI). Nahziel ist zunächst die Synthese einer „morphenden“ Antenne, beispielsweise für Satelliten, die autonom die optimale Form für sich ändernde Empfangsbedingungen annimmt. Selbst dieses Ergebnis ist aber „sicherlich noch an die zehn Jahre weit weg“, sagte Professor Goldstein von der CMU zu c't - aber so ein bisschen graut es einem angesichts der Perspektiven schon heute.

Quadriga

Dreh- und Angelpunkt des Herbstforums war jedoch der Quad-Core-Prozessor, der schon lautstark mit seinen Pads scharrt. Toms Hardware hatte allerdings mit einer Vorabveröffentlichung von Benchmarks die Luft schon ein bisschen herausgelassen. Nichtsdestotrotz handelte sich die Website von Intel-Chef Otellini zusätzliches Lob ein. Das dürfte Intels OEM-Kunden jetzt erst recht anregen, großzügig, wenn auch vertragswidrig Muster an die Presse zu verteilen. Vor Ort konnten die restlichen Journalisten in kleinen Gruppen ein paar vorbereitete Benchmarkläufe auf der QX6700 getauften Extreme Edition des Quad-Core-Prozessors (Codename Kentsfield) fahren. Der begnügte sich mit 2,66 GHz , sodass Single-Threaded-Benchmarks (etwa PCMark 05 overall) ein Stückchen langsamer liefen als auf dem X6800 Core 2 Extreme mit 2,93 GHz, in einem ansonsten gleich ausgestatteten BadAxe-2-Motherboard (D975XBX2). Da heutzutage gerade viele Spiele noch single-threaded kodiert sind, dürfte hier so manche Enttäuschung bei den „Enthusiasten“ programmiert sein - es sei denn, sie übertakten mutig. Multi-threaded-Software hingegen, wie POV-Ray oder 3ds Max rennt auf dem Quad-Core schon bei offiziellem Takt kräftig los. In wenigen Wochen soll der Quad-Core bereits auf den Markt kommen, zunächst in der vorgestellten Extreme Edition. Die Allerweltskollegen (Core 2 Quad) und die Workstation-Version (Clovertown) sind für etwas später eingeplant.

Pat-riarchisches

Rattners Vorgänger im Amt des Cheftechnologen, Pat Gelsinger, jetzt Chef der Business-Unit, machte sich mal wieder den Spaß, einen Intel-Bentley-Server mit zwei nicht genauer beschriebenen Xeon-Prozessoren der 5100-Linie (Woodcrest, mit möglicherweise gar 3,2 GHz) gegen ein „möglichst gleich“ ausgestattetes Opteron-F-System (2220SE mit 2,8 GHz) - von Gelsinger fälschlich als Opteron 285 bezeichnet - im Matrix-Multiplikations-Benchmark antreten zu lassen. Nun stammt der ausgesuchte MM-3.0-Benchmark aus Intels Feder, er verwendet Intels hochoptimierte mathematische Klassenbibliothek MKL V8.0.2 - und so verwundert es nicht übermäßig, dass der Opteron hierbei kein Land sieht: Mit 67 s gegenüber 39 s war er nicht nur deutlich unterlegen, er nahm während dieser Zeit auch durchschnittlich 440 Watt an Leistung auf, wobei sich das Bensley-System mit 370 Watt begnügte. Doch nicht nur das: Darauf folgte gleich Teil zwei der AMD-Demontage: Ein Mitarbeiter wechselte auf der Bühne in Windeseile die Prozessoren aus und setzte den Quad-Core Clovertown (Xeon 5300er-Linie) ein, und zwar die Low-Power-Ausführung mit vermutlich 2,1 oder 2,33 GHz. Die beiden Vierlinge waren alsdann in 31 s fertig, die Leistungsaufnahme während der Rechenzeit betrug etwa 380 Watt. In Energie pro Matrix-Multiplikationsjob ausgedrückt braucht das Opteron-F-System damit etwa 29,5 KWs gegenüber 15 KWs beim Woodcrest und 8 KWs beim Clovertown-LV.

Beim MM-3.0-Benchmark kann man ja noch zweifeln, doch auch im nicht hausgemachten SPECint_rate_base2000-Benchmark glänzt nach internen Intel-Messungen der Clovertown bei 2,67 GHz Takt mit über 50 Prozent höherer Performance gegenüber dem Opteron 2220SE. Er dürfte also Werte von 118 und mehr erreichen, verglichen mit dem Bestwert des Konkurrenten von 78,3.

Und das war noch nicht des Konkurrenz-Bashing genug: Jetzt bekam auch AMD-Partner Sun sein Fett ab. Mit der von Intel bei Transitive bestellten Emulationssoftware QuickTransit konnte der auf der Bühne aufgestellte Hitachi BladeSymphony-Server, bestückt mit acht der neuen Itanium-Dual-Core-Prozessoren Montecito, nativen SPARC-Solaris-Code ausführen - und zwar laut Gelsinger schneller als aktuelle UltraSPARC-Server. Sun-Chef „Scott McNealy wird das wohl nicht so genießen wie ich“, merkte Gelsinger dazu jovial an. Dabei lief Solaris (emuliert unter Linux) nur in drei der zwölf virtuellen Partitionen, parallel zu sieben Windows-SQL-Servern und einigen Linux-Workloads, um dergestalt die Mächtigkeit der Virtualisierungstechnik Vanderpool-i unter Beweis zu stellen.

Die SPARC-Emulation war sicherlich nicht als Spaß gemeint, im Unterschied zu Gelsingers Passwortwahl bei einer Sicherheits-Demo: „I hate amd“. Anschließend bereute er vor Journalisten diesen etwas unflätigen Umgang mit der Konkurrenz, er sei wohl ein wenig zu weit gegangen - unser Ex-Kanzler hätte vermutlich gesagt, es „war suboptimal“ ...

Mit der gemeinsam mit IBM und weiteren Industriepartnern entwickelten PCIe-Erweiterung Geneseo für Coprozessoren und Beschleuniger will Intel außerdem AMDs angekündigtem Torrenza das Wasser abgraben oder zumindest was entgegensetzen. Dank seiner direkten Hyper-Transport-Anbindung wird Torrenza wohl performancemäßig kaum zu schlagen sein - aber wenn die PCI-Special Interest Group (PCI-SIG) den Vorschlag der Geneseo-Entwickler akzeptiert, dürfte sich hier mal wieder recht schnell die normative Kraft des Marktes durchsetzen. Nicht von ungefähr gehört neben Intel, IBM, HP, Dell, Nvidia, Altera, Broadcom, LSI und Clearspeed auch AMD-Partner Sun zu den Unterstützern, und niemand anders als der legendäre Sun-Mitgründer Andy Bechtolsheimer wurde zum Geneseo Industry Panel entsandt. Hier verfolgt Sun wohl eine Doppelstrategie. Auf der Boardseite ist für Torrenza ja auch nur ein vergleichsweise preiswerter Sockel vorzusehen, aber ob kleinere Firmen wie Clearspeed für zwei Coprozessor-Anschlussstandards entwickeln können, ist eher fraglich.

Und das ist nicht die einzige Erweiterung, die AMD Sorgen bereiten kann (und soll). Gelsinger stellte auch schon die neue SSE4-Erweiterung vor, die in die nächste Core-Generation Penryn (in 45-nm-Technik) einfließen wird. Was bislang in Journalistenkreisen und in Softwaretools wie CPU-Z unter dem Namen SSE4 kursierte - die Multimediaerweiterung der Core-Architektur -, wurde zu „Supplemental SSE3“, kurz SSSE3, degradiert. Dieses SSSE3 dokumentierte Intel erst wenige Tage vor dem IDF, also gut drei Monate nach dem Launch des ersten Prozessors; da hat sich die Corporation wahrlich nicht mit Ruhm bekleckert. Und wichtige Informationen etwa bezüglich des Performance-Monitoring und zu den maschinenspezifischen Registern stehen zum Redaktionsschluss immer noch aus. Das muss kein böser Wille sein, sondern könnte eher dafür sprechen, dass der Prozessor ziemlich überstürzt auf den Markt geworfen wurde.

SSE4 enthält nun ein größeres Bündel von rund 50 neuen Befehlen, nicht nur für SSE, sondern auch für die String-Verarbeitung, CRC-Prüfsummenbildung sowie den schönen POPCNT-Befehl, auch Hamming-Gewicht genannt, der die Einsen in einem Datenwort zählt. Selbigen, genauso wie beispielsweise Einschieb- und Löschbefehle für einzelne Bits in den SSE-Registern, hat bereits AMD für die eigene Instruktionserweiterung im Quad-Core vorgesehen - doch ob die Befehle jetzt kompatibel sein werden? AMDs Quad-Core ist ja schon fertig designt, für den Einbau von SSE4 dürfte es für ihn zu spät sein. So kalkuliert offenbar auch Intel, die Vorveröffentlichung der Befehle ein Jahr vor dem Penryn dürfte nun wohl auch das Ziel verfolgen, das alte Totschlag-Argument der Kompatibilität aufzuwärmen.

Papierausbeute

Das Recht, die SSE4-Instruktionen zu übernehmen, wäre durch das Patentaustausch- Abkommen mit AMD durchaus gegeben, erklärte Pat Gelsinger im Gespräch mit c't. Zum Interviewtermin kam Gelsinger deutlich zu spät, musste er doch vermutlich noch zuvor an einer Krisensitzung teilnehmen - nein, nicht wegen des Konkurrenz-Bashing, sondern wegen einer offenbar dicken Panne. War doch irgendwie in das Backup-Material zum kurz zuvor abgehaltenen Enterprise Press Briefing eine Folie gelangt, die zum ersten Mal (jedenfalls soweit ich weiß) in der Geschichte des Hauses Intel über Ausbeute und Kosten bei der Prozessorherstellung Auskunft gibt. Just diese brisante Seite hatte ich schon auf den Tisch parat gelegt - Gelsinger kam, sah und knüllte -, und zwar das inkriminierende Papier zu einem kleinem Knäuel zusammen (macht nichts, ein Backup des Backups hatte ich vorsorglich schon in der Tasche). Vielleicht war dieses Paper auch lanciert - wer weiß. Jedenfalls gehört es zur Abwehrstrategie gegen die allmählich lauter werdende Kritik, Intel hätte gar keinen echten Quad-Core, sondern nur ein „zusammengeklebtes“ Multi Chip Package (MCP) aus zwei Dual-Prozessoren.

Doch Intel kontert, bezüglich Performance sei es nicht weiter schlimm, dass die beiden Prozessorhälften umständlich über den Frontsidebus miteinander kommunizieren müssen. Der hätte zumeist noch genügend Luft, und zum Beleg fügte Intel Messungen mit dem SPEC-Benchmark 178.Galgel an. Doch Galgel gehört zu den Benchmarks mit recht mäßiger Busbelastung, insbesondere angesichts von 4 MByte L2-Cache. Da wären andere SPEC2000-Benchmarks wie Swim schon etwas anspruchsvoller. Zudem ist inzwischen die neue CPU2006-Suite da, die weitaus mehr Busverkehr provoziert - da werden die Karten komplett neu gemischt.

Intel führt aber als Pro deutlich niedrigere Produktionskosten ins Feld, denn die Ausbeute (Yield Rate) nimmt nach den Erfahrungen exponentiell mit der Chipgröße ab.

Gut 8 US-Dollar pro Prozessor spart das MCP nach den Berechnungsmodellen ein, hochgerechnet auf das vierte Quartal 2007. Auch nach dem Shrink auf 45 nm wird Intel zunächst an dem Zwei-Chip-Modul festhalten. Für später ist dann aber ein echter Quad-Core (Yorkfield) geplant.

Nebenbei erfährt man aus besagtem Papier, dass die Ausbeute des Core-2-Duo-Prozessors 320 gute Chips pro Wafer beträgt. Da rund 430 Prozessoren auf einen 300-mm²-Wafer passen (kann man überschlägig aus πd²/4A - πd/(2A)^0.5 mit d = Wafer-Durchmesser und A = Chipfläche, hier also 143 mm², ausrechnen), liegt die Yield-Rate bei für Prozessoren recht hohen 75 Prozent.

Renaming

Es gab wie auf dem IDF üblich noch eine Fülle weiterer Neuerungen, für deren Beschreibung hier leider kein Platz mehr ist; Robson zum Beispiel, eine Technik zum schnelleren Booten und Starten von Applikationen mit Hilfe von Flash-Speicher auf dem Board, oder PCIexpress 2.0, für den Rambus schon erste Bausteine vorstellte. Aber ein paar neue Namen beziehungsweise Umbenennungen sollen zum Abschluss nicht unerwähnt bleiben. SSSE3 für den erweiterten Core-Befehlssatz ist ja schon genannt worden. Aber EM64T, dieser absichtlich mal abschätzig gewählte Ausdruck für Intels AMD64-kompatiblen Befehlssatz (steht für Extended Memory 64 Bit Technology) wird jetzt inklusive SSE4 zu „Intel 64 Instruction Set“ aufgewertet - nicht zu verwechseln mit IA64 des Itanium-Prozessors. Die Sicherheitstechnik LaGrande firmiert in Trusted Exection Technology um, und der als erster Prozessor in 32-nm-Technik geplante ehemalige Nehalem-C taucht in einigen Roadmaps unter Westmere auf. (as)