Von Zellen und Prozessoren
Mehr als 200 Vorträge zu aktueller und kommender Halbleitertechnik standen auf der Tagesordnung der ISSCC in San Francisco, doch das Medieninteresse drehte sich vor allem um eins: um den ominösen „Supercomputer auf einem Chip“, den Cell-Microprocessor von IBM, Sony und Toshiba.
- Erich Bonnert
Aus Patentschriften und im Vorfeld der ISSCC verteilten Mitteilungen der Entwicklungspartner war bekannt, dass der Cell-Prozessor auf einer 64-bittigen IBM-Power-Architektur aufbaut, die mit acht so genannten Attached Processing Units (APU) auf einem Chip zusammenspielt. Diese heiĂźen nun - je nach Referent und Schaubild - mal Synergistic Processing Units (SPU) oder Synergistic Processing Elements (SPE), manchmal auch Streaming oder SIMD Processing Element. Jedenfalls bestehen diese SPU/E-Gebilde aus einer Recheneinheit mit vierfach SIMD (SXU genannt). Sie verfĂĽgen ĂĽber 128 Register und ĂĽber einen eigenen, lokalen Speicher (LS) von 256 KByte. Jede SXU besteht aus zwei Pipelines: eine gemeinsame (even) Pipeline fĂĽr die FP- und Integereinheit sowie eine (odd) fĂĽr die Permutations- und die Lese/Schreibeinheit (Channel Unit). Diese massive Nutzung von integrierten Prozessorkernen verschafft dem Chip eine extrem hohe arithmetische Rechenleistung.
Der als Steuerinstanz fungierende 64-Bit-Power-Prozessor (PPE) mit zwei 32-KByte-L1-Caches, FPU und VMX-Erweiterungen für Gleitkomma-Aufgaben in einfacher Genauigkeit kann zwei Programm-Threads gleichzeitig bearbeiten (zweifach SMT). Er verfügt über eine elfstufige Pipeline, arbeitet jedoch anders als aktuelle Power-Prozessoren in-order - ähnlich also wie Intels Itanium, der für seine einfache In-Order-Struktur oft gescholten wurde. SMT kann jedoch die Nachteile („Stillstand“ der Pipeline bei Zugriffen auf den Speicher) des einfachen In-Order-Designs weitgehend ausgleichen. Die acht SPEs übernehmen außerdem je einen Thread, maximal führt der Cell-Prozessor also bis zu zehn Befehlssequenzen gleichzeitig aus. Die Architektur unterstützt mehrere Betriebssysteme und erlaubt damit beispielsweise den simultanen Betrieb von konventionellen Desktop- oder Server-Betriebssystemen und Echtzeitanwendungen. Der Chip verfügt über 2,5 MByte Speicher: 512 KByte Level-2-Cache für die Steuer-CPU und achtmal 256 KByte in den SPEs.
Die SPEs verzichten wie beim klassischen Vektorrechner auf eine Cache-Hierarchie. Sie korrespondieren über eine bidirektionale Verbindung via DMA-Flow-Controller direkt mit ihren lokalen Speichern. Ein mit der halben Systemfrequenz laufender interner Element Interface Bus (EIB) verbindet die SPEs miteinander und mit den anderen Ressourcen. Er transferiert bis zu 96 Byte pro Zyklus, wobei mit dem einzelnen lokalen Speicher jedes SPE die Bandbreite auf 16 Byte/Zyklus beschränkt ist.
Als Verbindung zur Peripherie baut die Firmengruppe auf das unter dem Codenamen Redwood entwickelte Design von Rambus auf, das hier Flex I/O heißt. Dieses parallele I/O-Interface arbeitet mit eine Übertragungsrate von 6,4 GBit/s pro Signalpaar . Insgesamt zwölf jeweils 8 Bit breite Links verbinden den Cell-Prozessor mit der Peripherie und weiteren Cell-Kollegen. Die Links arbeiten unidirektional: sieben gehen nach außen und fünf hinein, sodass sich 44,8 GByte/s Schreib- und 32 GByte/s Leserate zu insgesamt 76,8 GByte/s ergeben. Nach innen zum EIB ist das Interface über zwei Kanäle mit jeweils 16 Byte pro Buszyklus verbunden.
Cell-Verband
Auch bei der Hauptspeicheranbindung vertraut die Troika auf Rambus: Das XDR-Interface der Kalifornier ist ebenfalls direkt an den EIB angekoppelt. Es arbeitet mit einer Frequenz von bis zu 3,2 GHz und kann so bei zwei vorgesehenen Kanälen auf 25 GByte/s Speicherbandbreite kommen oder, wie sich Rambus unscharf ausdrückte, „ auf die vielfache Memory-Bandbreite bisheriger Computer“ - mehr Details zu der XDR-Implementierung erfuhr man auf der Konferenz leider nicht.
Das Entwicklerteam positioniert Cell als Breitband- und Echtzeit-Architektur für rechenintensive Anwendungen in der Medienverarbeitung. Die Bezeichnung Cell bezieht sich nicht auf die Hardware selbst, sondern leitet sich vom Programmiermodell ab, für das der Chip konzipiert wurde. Ein „Cell“ ist dabei ein geschlossenes Softwaregebilde aus Befehlslogik und den zu verarbeitenden Daten, ganz im Sinne eines objektorientierten Designs. Cell enthält so genannte Apulets (müssten jetzt eigentlich Spulets heißen ...), deren Umfang von kompletten Software-Stacks bis zu Teilen eines Prozesses reichen kann. Für fast alle Ausprägungen der Apulets bietet die Multicore-Architektur des Chips die optimalen Voraussetzungen. Jede der neun CPUs kann entweder für sich arbeiten oder in Kooperation mit einer beliebigen Zahl anderer Prozessoren. In Streaming-Prozessen etwa kann Cell seine Stärken voll ausspielen, denn mehrere SPEs können an verschiedenen Stufen des Streams gleichzeitig arbeiten, ohne dass Abhängigkeiten oder Speicherwartezeiten den Chip ausbremsen. Die schnellen Interconnects überspielen dabei die Speicherlatenzen: Selbst Prozesse, die auf getrennten Chips laufen, können per Netzverbindungen gekoppelt werden. So konfiguriert sich ein Programm eine eigene virtuelle Pipeline aus freien CPU-Kernen - jeder mit privatem, lokalem Speicher und eigenen Registern.
Bei 4 GHz Takt und gleichzeitigem Betrieb aller acht SPEs mit jeweils Vierfach-SIMD, die alle die Multiply-Add-Operation (die doppelt zählt) ausführen, kommt Cell so auf eine sehr theoretische Spitzenleistung von 256 Milliarden Gleitkommaoperationen/s (GFLOP/s). Hierzu gesellt sich außerdem noch die Rechenleistung der Power-CPU. Ein System mit vier Cell-Processoren könnte sich damit in die Top500-Rangliste der schnellsten Supercomputer hineinschieben - bleibt jedoch abzuwarten, was real, etwa beim Linpack-Benchmark, herauskommt.
Erste bei IBM in East Fishkill im 90-Nanometer-Prozess hergestellte Prototypen haben Taktgeschwindigkeiten für die SPEs von bis zu 4,6 GHz erreicht. Die 234 Millionen Transistoren beanspruchen hierbei eine Fläche von 221 Quadratmillimetern. Die Leistung bisheriger Prozessoren in Entertainment- und Spieleanwendungen werde Cell bis zu zehnmal übertreffen, sagte Jim Kahle, IBM-Fellow und Technologiedirektor für das Cell-Projekt. Darüber hinaus eigne sich nach seinen Worten die Cell-Plattform hervorragend für den Bau von Grid-Strukturen. Die lose gekoppelte Architektur ermögliche Rechnerverbände von enormem Durchsatz mit weltweit verteilten Ressourcen.
Zu den meistgestellten - aber unbeantworteten - Fragen gehörte die nach Stromverbrauch und Wärmeentwicklung des Chips. Schätzungen gehen von 50 bis 80 Watt bei 4 GHz Takt (für die SPEs) aus. Es wurden laut Kahle eigens neue Techniken entwickelt, damit der Baustein mit Luftkühlung „innerhalb üblicher thermaler Bedingungen“ bleibe. Zehn Temperatursensoren sollen kritische Wärmepunkte überwachen - und vermutlich wie in IBMs Power970-Prozessoren die Reduzierung von Takt und Spannung veranlassen, um Überhitzung zu vermeiden.
Cell-Stoff
Cell ist als Breitbandprozessor für die Verarbeitung von Streaming-Medien konzipiert. Sonys kommende Spielkonsole Playstation 3 ist bislang das erste bekannte Produkt, das mit einem der neuen Super-Chips rechnen soll. Ab 2006 sollen die ersten Konsolen vom Band laufen. Der japanische Unterhaltungsriese plant außerdem hochleistungsfähige Workstations für Programmierung und Rendering von komplexen grafischen Daten. Und im nächsten Schritt sollen hochauflösende Fernseher, DVD-Systeme und Displays mit den Chips ausgestattet werden. Das dürfte auch das primäre Ziel von Toshiba sein. Toshibas Engineering-Direktor Yoshio Masubuchi wich bei der Frage jedoch aus: „Wir müssen erst einmal unsere Entwicklungsaufgaben zu Ende führen.“ Ansonsten blieb es bei verschwommenen Statements über digitale Konvergenz, Breitband-Applikationen im Entertainment- und industriellen Bereich.
Auch nicht so glasklar wie bei Sony sind die Pläne bei IBM. Insbesondere ist noch nicht erkennbar, wo größere Fertigungsvolumina herkommen sollen, um Herstellungskosten zu senken. Zwar haben auch die beiden anderen großen Konsolenbauer, Microsoft und Nintendo, die Power-Architektur für ihre nächsten Produktgenerationen übernommen, allerdings keine Cell-Chips. Linux läuft nach Angaben Kahles bereits auf den Prototypen stabil. Natürlich sind auch IBMs hauseigene Systeme AIX und OS/400 Power-kompatibel, beides sind aber Auslaufmodelle. Fachleute spekulieren gar, dass Apple von der PowerPC-basierten G5-Plattform auf Cell umsteigen könnte. Kevin Krewell, Chefanalyst des Microprocessor Report, hält es eher für wahrscheinlich, dass Cell-Prozessoren auf Einsteckkarten in Mac-Systemen Einzug halten werden.
Deutscher Cell-Prozessor
Wichtige Teile des Cell-Prozessors wurden bei IBM in Böblingen entwickelt - aber es gibt auch eine eine völlig andere Art von Cell-Prozessor aus deutschen Landen: Peter Fromherz vom Max-Planck-Institut für Biochemie in Martinsried stellte auf der ISSCC eine Methode vor, Microchips direkt mit Gehirn- und Nervenzellen zu verbinden. Fromherz’ Ziel sind Hybridschaltungen aus organischen neuronalen Netzen und Halbleiterprozessoren.
Bevor man ernsthaft an neuro-elektronische Entwicklungen denken kann, müssen Grundlagen für ein Interface geschaffen werden, um zuverlässige Verbindungen zwischen Halbleiter und Nervenzellen zu bauen. Die Ladungsträger im Halbleiter Silizium sind Elektronen, während im vorwiegend aus Wasser und Salzen bestehenden Gehirngewebe Ionen die Ladung transportieren. In die Zellen eindringende Elektronen würden diese zerstören; Wasser- oder Kochsalzionen im Halbleiter hingegen hätten Korrosionen zur Folge.
Eine Elektrolytschicht zwischen den Zellen und der Chipoberfläche verhindert dies. Wird eine Nervenzelle oder ein Neuron angeregt, öffnen sich Ionenkanäle in der Zellmembran. Damit fließt Strom entlang der Elektrolytschicht zwischen Chip und Zelle und erzeugt eine Spannung am offenen Gatter eines Feldeffekttransistors. Für den Übergang vom Chip zur Zelle wird eine Spannung an einem Silizium-Elektrolyt-Übergang angelegt, der damit eine Art Kondensator bildet. Die extra-zelluläre Spannung öffnet Ionenkanäle - und das Neuron wird stimuliert.
In Experimenten hat Fromherz die Dynamik von Kalium- und Natrium-Ionen ausgenutzt, die in tierischen Nervenzellen für elektrische Stimuli sorgen. Die Neuronen (Ganglien) von Schnecken sind besonders leicht an Chips zu koppeln, da sie eine große Berührungsfläche mit dem Halbleiter haben. Säugetierneuronen sind winzig und die Kopplung daher schwach.
Neuronen bilden Netze durch Signalübertragung über Synapsen. Die synaptische Übertragung zwischen zwei Schneckenganglien kann vom Chip (per Kondensatorspannung) im ersten Ganglion angeregt, danach im zweiten Ganglion registriert und gespeichert werden. Durch Verstärkung der Synapsen via kapazitiver Stimulation konnte das Team um Fromherz so einen neuronalen Speicher auf dem Chip etablieren.
Als größeres neuronales Experimentiernetz dienten dünne Scheiben eines Rattengehirns, die direkt auf den Transistoren kultiviert wurden. Auch in diesem Fall wurden synaptische Transfers und synaptische Speicher an die Siliziumchips gekoppelt. Im nächsten Schritt wurde von Infineon ein CMOS-Chip mit einer Matrix von 128 x 128 Sensor-Transistoren gefertigt und darauf eine Schicht von Rattenneuronen platziert. Deren zeitlich verteilte neuronale Aktivität kann so dreidimensional visualisiert werden.
Außerzelluläres
Infineon war auf der ISSCC mit diversen weiteren Beiträgen vertreten, insbesondere zum Thema Schaltungstechniken für 120-nm- und 90-nm-CMOS-Technologien mit signifikant reduzierten Leckströmen. Das Institut für Halbleiterphysik IHP aus Frankfurt/Oder stellte einen vergleichsweise preiswert zu fertigenden Frequenzsynthesizer für 60 GHz in 0,25-µm-SiGe-Technologie vor. Gleich mit 16 Vorträgen wartete Texas Instruments auf zum Schwerpunkt der Integration von digitalen und analogen Komponenten bei 90 nm; auch hier steht das Thema Leckstrom im Vordergrund. Das gilt letztlich auch für Intel. Das Prozessorhaus hat sich jedoch auf ein paar wenige News zur Energieeinsparung bei der Multicore-Itanium-Version Montecito beschränkt, steht doch die hauseigene Entwicklerkonferenz IDF Anfang März an. So erfuhr man lediglich, dass die neuen Stromsparmodi die Leistungsaufnahme des Montecito-Prozessors bei 2 GHz auf 100 Watt beschränken - ohne solche Modi wäre die Verlustleistung von vermutlich 300 Watt wohl kaum noch beherrschbar. (as)