Fall Processor Forum: Multiple Multi-Cores
IBMs POWER dominierte in gleich drei verschiedenen Multicore-Varianten und dem Xbox-Chip den ersten Tag des Fall Processor Forums. Aber auch Fujitsu beispielsweise will mit neuen Zwei- und Vierkern-SPARC-Prozessoren im Multicore-Markt reĂĽssieren.
IBMs POWER dominierte in gleich drei verschiedenen Multicore-Varianten den ersten Tag des Fall Processor Forum (FPF) in San Jose – außerdem ist IBM auch der Hauptsponsor des Forums. Daneben konnte sich bei den großen Eisen Fujitsu mit dem SPARC64 VI und VI+ in Szene setzen, die dem kürzlich verschobenen Intel-Prozessor Montecito mächtig Konkurrenz machen wollen.
Nach der Eröffnung durch Mike Fister, Chef der führenden EDA-Firma Cadence und früher Leiter der Enterprise-Gruppe bei Intel, stellte IBM-Ingenieur Norman Rohrer den seit kurzem schon von Apple angekündigten Dual-Core-PowerPC PPC970 und insbesondere sein Powermanagement detailliert vor. Die auffälligste Änderung am Core selbst ist die Verdoppelung des L2-Caches auf 1 MByte. Anders als beim Power5 teilen sich die beiden Cores nicht den L2 – was laut Rohrer den Vorteil hat, dass man einen Core samt L2-Cache zum Stromsparen abschalten kann. Die ausgefuchste Stromspartechnik gehört zu den großen Stärken dieses Designs. Beide Kerne besitzen eigene Versorgungsspannungen (Split Voltage) und können unabhängig voneinander in den Dös-Modus (Doze) gehen. In die tieferen Schlafzustände (Nap und Deep Nap) treten sie dann gemeinsam ein. Der Takt von derzeit 2,5 GHz lässt sich im Betrieb auf 1/2 oder 1/4 reduzieren, was die Energieaufnahme von 100 Watt auf 18 Watt (bei verringerter Kernspannung) reduziert. Wenn man einen Kern abschaltet, sinkt die Energieaufnahme noch einmal auf die Hälfte – die Gesamtperformance beträgt dann aber nur noch 12 Prozent. Im Deep-Nap-Modus sinkt die Aufnahme bei 1/64 Takt bis auf 5 Watt (Dual) beziehungsweise 3 Watt(Single).
Während IBM beim PPC970MP sehr ausführlich auf die Energieaufnahme einging, hüllte sich der Vortragende zum Xbox-360-Prozessor, Jeffrey Brown, zu diesem Punkt in tiefes Schweigen ("ich wurde angewiesen, dazu nichts zu sagen"). Man ist hier also weiterhin auf Spekulationen angewiesen, die bis zu 80 Watt hinaufreichen. Aber Brown gab einen ausführlichen Überblick über die Mikroarchitektur und den Prozessorbus des jetzt in Produktion gegangenen Chips. Die 3 Kerne teilen sich einen gemeinsamen L2-Cache von 1 MByte und verfügen über eigene L1-Caches (je 32 KByte für Daten und Instruktionen). Mit 11 Stufen ist die Pipeline wie jene vom Cell-Prozessor deutlich kürzer als die 16-stufige Pipeline des PPC970 (G5). Es werden zwar bis zu vier Instruktionen pro Takt und Core eingelesen, aber maximal zwei Befehle pro Takt in order verteilt. Das ist eine vergleichsweise schwache Skalarität, der PPC970 kann beispielsweise bis zu fünf Befehle pro Takt an seine Einheiten verteilen.
Die XCPU beherrscht Simultaneous Multithreading, kann also zwei Threads pro Core gleichzeitig verarbeiten. Die ALU weist eine Latenzzeit von 2 Takten auf, über Durchsatz hat IBM noch nichts bekannt gegeben. Die VMX-Vektoreinheit wurde gegenüber dem AltiVec des G5 erheblich erweitert. Sie ist 128-bittig angebunden, besitzt jetzt 128 Vektorregister, kennt viele neue Befehle (Skalarprodukt, Direkt3D-Pack und -Unpack, misalignte Speicherbefehle und vieles mehr). Der Bus arbeitet mit vier achtbittigen Kanälen (zwei pro Richtung) mit je 5,4 GByte/s. Auf der Gegenseite wartet der Grafik-Chip von ATI, dessen Bus-Interface auch von IBM stammt, über den auch der Hauptspeicher angekoppelt ist.
Der in IBMs 90-nm-SOI-Prozess CMOS 10KE hergestellte Chip besitzt 165 Millionen Transistoren und ist 168 mm2 groß. Er trägt das "Wappen" des Auftraggebers und Lizenznehmers Microsoft.
Als weiterer Lizenznehmer von IBM präsentierte sich das Startup P.A. SEMI, das schon vorab seinen von den Daten her sehr beeindruckenden Chip PWRfizient PA6T präsentiert hatte. Dieser existiert allerdings bislang nur auf dem Papier, beziehungsweise (zum Teil) im Emulator-System von Eve, wo er mit 1,4 MHz unter VxWorks läuft. Geplant ist der Prozessor gleich für 65 nm, sonst würde man gar nicht zwei 64-Bit-Prozessorkerne samt 2 DDR2-Speicher- und PCI/PCIe-Controller sowie Netzwerk und Offload-Engines auf einen Chip bekommen. Die Foundry (also den Auftragsfertiger für den Chip) wollte P.A. SEMI nicht verraten. Dafür gibt es schon mal ein paar Performance-Schätzungen: > 1000 SPECint2000/Core und > 2000 SPECfp2000/Core bei 2 GHz Takt.
Mit dem SPARC64 VI (Olympus) will auch Fujitsu in den Multicore-Wettbewerb einsteigen. Mitte nächsten Jahres solle er mit 2,4 GHz herauskommen, gerade rechtzeitig, um den Kampf mit dem verspäteten Intel Montecito aufnehmen zu können. Jeder der beiden Kerne entspricht im Wesentlichen dem SPARC64 V. Er ist jedoch in der Single-Thread-Performance bereits doppelt so schnell wie der Vorgänger bei 1,35 GHz. Im neuen Multithreading-Konzept ähnelt Olympus sehr dem Montecito, auch hier wird grobkörnig nur bei bestimmten Events auf den anderen Threads umgeschaltet. Bei Intel heißt das "Switch On Event Multithreading" (SoEMT), bei Fujitsu "Vertical Multithreading" VMT. Nur 2 Prozent mehr Gatter soll VMT erfordern, aber bis zu 20 Prozent Performance herausholen. Gibt es nicht mehr Threads als Cores vorhanden sind, so schaltet sich VMT automatisch ab. Mit 6 MByte L2-Cache kommt der in 90 nm hergestellte Chip mit seinen 540 Millionen Transistoren auf 420 mm2 Größe. Als Energieverbrauch gibt Fujitsu 120 Watt an. Für Ende 2007 ist dann der in 65 nm hergestellte SPARC64 VI+ vorgesehen mit 4 Kernen. Er soll nur ein bißchen größer sein (460 mm2) als die Dual-Core-Version VI und mit über 2,7 GHz laufen.
Und auch Broadcom will bei den Multicores mitmischen, wobei das für SoC (System-on-a-Chip) gedachte Design auf zwei komplett unabhängige Kerne verzichtet, nur die Register und die Ausführungseinheiten zweimal besitzt und ansonsten alles teilt. Broadcom nennt das "Concurrent Multi-Threading" CMT im Unterschied zu Simultaneous Multithreading SMT, wo sich die logischen Kerne auch die Ausführungseinheiten teilen. Die Kerne beruhen bei Broadcom auf MIPS32, der L2-Cache ist als so genannter Readahead-Cache (RAC) ausgeführt, der spezielle Prefetch-Mechanismen bietet. CMT ist in Dhrystone mit 810 MIPS (beide Kerne zusammengerechnet) bei 300 MHz etwa so schnell wie ein Kern allein bei 500 MHz.
Siehe zum Fall Processor Forum (FPF) 2005 auch: (as)
- Video wird Vorzeigeanwendung für Parallelität
- IBM startet Produktion des Prozessors fĂĽr die Xbox 360
- Intel verschiebt nächste Itanium-Generation Montecito
- Dualcore-CPU auf Power-Basis lernt Stromsparen