Prozessorgeflüster

Damit man gleich weiß, wo es lang geht, hat Intel den Polarstern („Polaris“) schon vorab hoch am Firmament der International Solid-State Circuits Conference ISSCC befestigt und den ersten erfolgreichen Durchbruch der Teraflop-Schallmauer mit einem einzigen Chip vermeldet. Auf den Markt soll der Experimentierchip aber nicht, sondern erst spätere x86-kompatible Designs.

6

19.02.2007, 00:00 Uhr

Lesezeit: 6 Min.

c't Magazin

Von

Andreas Stiller

X86 - so lautet das gemeinsame Credo der sich ansonsten bitterlich bekämpfenden Firmen Intel und AMD (siehe auch c't 05/07, S. 27). Nicht nur auf dem bewährten Terrain der Notebooks, Desktops und Server, nein, x86 soll mit seinen SIMD-Erweiterungen auch neue Bereiche erobern, darunter Autos, Waschmaschinen und Unterhaltungstechnik, wo zumeist andere Architekturen das Sagen haben. Zudem soll x86 in die Grafikchips einziehen und nach Intels TeraScale-Plänen auch die zukünftigen Many-Core-Designs bevölkern.

Ubiquitärer x86

In der Oberklasse der Embedded-Welt mit 32 und mehr Bits regieren ARM, PowerPC und ein bisschen MIPS, aber es gab hier schon immer eine vergleichsweise kleine x86-Nische. AMD hatte früher mit den Elan-Familien (zuletzt mit Am5x86-Kern) spezielle Chips für Embedded gefertigt und sich dann vor ein paar Jahren Geode von National Semiconductors hinzugekauft und die Linie durch umgewidmete Athlons erweitert. Via konnte den C3 recht gut platzieren, und Intel hatte von allen Generationen Prozessorauskopplungen für den Embedded-Markt parat, meist „normale“ Prozessoren mit anderen Taktfrequenzen oder in besonders stromsparenden Ausführungen - wie jetzt den Pentium M „Crofton“ für Apples Settop-Box Apple TV.

Nur selten gab es auch spezielle hochintegrierte Chips wie den 386EX, 386SL und 486SL. Nach langer Zeit will Intel nun Ende dieses Jahres diese Tradition mit einem neuen System on a Chip fortsetzen. Das SoC, das auf den schönen (Sioux-)Namen Tolapai hört, beruht auf einem 65-nm-Pentium-M - vermutlich ein Yonah-Kern - mit einem auf 256 KByte verkleinerten L2-Cache. Er wird der erste Intel-Chip mit integriertem Speichercontroller (DDR2 400...800) seit dem 486SL sein - sieht man mal von dem unglücklichen, kurz vor der Markteinführung abgekündigten Timna ab. Daneben bietet Tolapai Peripherie und Schnittstellen zuhauf: unter anderem 3 x Gigabit-Ethernet, 2 x SATA, 5 x PCIe, 2 x USB, 2 x UART, 33 I/O-Pins und so weiter. Auch der für die Autoindustrie wichtige CAN-Bus ist gleich zweimal dabei. Intel unterstreicht damit sein verstärktes Interesse am Automobilbereich; mit BMW beispielsweise haben die Kalifornier schon eine sehr weitreichende Zusammenarbeit beschlossen. Hier dürfte dann wohl auch Tolapai eine Rolle spielen.

Im Grafikbereich hat Konkurrent AMD seine Pläne zur Fusion von Haupt- und Grafikprozessor ab etwa 2008/2009 schon bekannt gegeben. Im Gegenzug arbeitet Intel in der Visual Computing Group - wie aus den gewöhnlich gut unterrichteten Kreisen schon vor einiger Zeit verlautete - an einem Grafikchip namens Larrybee mit 16 Kernen. Die sollen mit x86/SSE-Befehlen programmiert werden können, genauso wie die im Rahmen der TeraScale-Offensive geplanten Many-Core-Designs mit 80 Kernen und mehr, an denen derzeit auch Intels hiesiges Microprocessor Research Center in Braunschweig forscht.

Doppeldecker

Der jetzt auf der ISSCC detailliert vorgestellte Multicore-Experimentierchip Polaris jedoch, der noch ohne die Braunschweiger Mithilfe designt wurde, hat mit x86 überhaupt nichts am Hut. Polaris ist ein Netzwerk („Mesh“) aus 8 x 10 identischen Kernen, die auf einem 96-bittigen VLSI-Design beruhen. Jeder Kern kann bis zu acht Instruktionen parallel ausführen. Sein Rechenwerk besteht aus zwei FPMAC-Einheiten (Floating Point Multiply Accumulator in einfacher Genauigkeit), versehen mit kleinem lokalen Speicher für 2 KByte Daten und 3 KByte Instruktionen. Ihm zur Seite steht ein leistungsfähiger Router mit 80 GByte/s Transferleistung bei 4 GHz Nominaltakt. Der Router hält über fünf Ports den Kontakt zu den Nachbarn: den vieren im 2-D-Gitter und zu einem zusätzlichem SRAM-Speicher, der demnächst im Polaris SP1 in einem zweiten Die über oder unter das Prozessor-Die gestülpt werden soll (3D-Stack-Technik). Mit dem zusätzlichen Speicher dürfte der Doppeldecker dann die Zahl seiner Transistoren vervielfältigen; die 80 Kerne selbst beschränken sich auf die „überschaubare“ Anzahl von insgesamt 100 Millionen Transistoren. Jeder der im 65-nm-Prozess gefertigten, nur etwa 3 mm² großen Kerne hat somit mit etwa 1,2 Millionen Transistoren just genauso viel wie seinerzeit der legendäre 486DX - ist eben nur ein bisschen schneller.

Voll pipelined (mit 9 Stufen) kann jede der beiden Recheneinheiten pro Takt eine Multiplikation und eine Addition ausführen, der gesamte Kern kommt damit auf einen Durchsatz von vier Gleitkommaoperationen pro Takt. 80 Kerne überschreiten dann bei 3,125 GHz theoretisch die Teraflop/s-Marke. Um diesen Rubikon mit realer Software zu überqueren, ist indes ein etwas höherer Takt nötig. Konkret hat Intel mit dem hervorragend parallelisierbaren „Stencil“-Lösungsalgorithmus für partielle Differentialgleichungen den besten Erfolg gehabt und konnte bei 4,27 GHz den tatsächlichen Durchbruch der Teraflop-Schallmauer vermelden.

Für die im High-Performance-Umfeld wichtigste „Grundrechenart“, die Matrixmultiplikation (hier allerdings nur in einfacher Genauigkeit SGEMM), reicht der derzeitige Maximaltakt von 5,7 GHz zum Erreichen der Zielmarke indes noch nicht ganz aus, dazu wären 8,4 GHz nötig. Der Testchip kann derzeit auch nur schnell rechnen - noch ist es etwas mühsam, die Daten in ihn hinein und aus ihm heraus zu bekommen. Interessant ist aber vor allem auch der Energieverbrauch des mit zahlreichen Stromspartricks wie Clock-Gates und Schlaftransistoren ausgestatteten Chips. Beim Takt von 3,16 GHz begnügt er sich mit 62 Watt, beim um 80 Prozent höheren Takt von 5,7 GHz steigt der Verbrauch bereits auf 265 Watt, also auf mehr als das Vierfache.

Mit solchen Verbrauchsangaben wollte Intel wohl nebenbei den auf hohen Takt von über 5 GHz ausgelegten Power6 des Konkurrenten IBM als möglichen „Verschwender“ brandmarken. Beim Schreiben dieser Zeilen war die Konferenz aber noch im vollen Gange, und so wird unser Korrespondent vor Ort über die Einzelheiten zu dieser IBM-Präsentation sowie über Neuigkeiten zum 65-nm-Cell, zu AMDs Barcelona und zu anderen interessanten Chips auf der ISSCC in der nächsten c't-Ausgabe berichten. (as) (as)