Kontrastprogramm
Auf dem diesjĂ€hrigen 13ten Microprocessor Forum ging es wie ĂŒblich um neue Prozessor-Designs, um gröĂte, schnellste und kleinste Prozessoren, um Stromfresser und Stromsparer - aber auch um ChipsĂ€tze und Speicher. Doch Michael Slater, der Oberguru der internationalen Prozessorszene, der als Herausgeber des Insider-Blattes Microprocessor Report (MPR) zwölf Jahre lang fĂŒr âsein Kindâ, das Microprocessor Forum, gesorgt hatte, ist derweil zur Softwareseite âdesertiertâ.
- Dr. Sabine Cianciolo
- Andreas Stiller
Skandierte Slater noch vor wenigen Jahren: âDas Einzige, was zĂ€hlt, ist Performance, Performance, Performanceâ, - so war er im letzten Jahr schon bedĂ€chtiger: âWarum mehr Performance als genug?â fragte er nachdenklich. Und jetzt hat er sich mit seiner Firma PhotoTablet ganz der Software verschrieben: âWas heutzutage hauptsĂ€chlich zĂ€hlt, ist Softwareâ - sagte Slater zu c't. Die Hardware sei schnell genug. Das steht natĂŒrlich im Kontrast zum Themenbereichs des Forums, wo eben diese Hardware im Mittelpunkt steht. Auf dem Forum in San Jose, dem Herzen des Silicon Valley, ist Slater jetzt nur noch Gast. Das veranstaltet nun Cahner MicroDesign Resources, die auch den MP-Report verlegen.
Wie in all den Jahren zuvor, war das Forum gut besucht, wenngleich diesmal richtige Highlights im Prozessorgeschehen ausblieben. Immerhin gab es etliche PrĂ€zisierungen und Updates, ein paar Roadmaps, diverse Andeutungen und hier und da doch ein paar Ăberraschungen.
Mit einer solchen Ăberraschung wartete bereits am Vortag des Forums die deutsche Startup-Firma PACT auf: nĂ€mlich mit einem massiv-parallelen Prozessordesign. Prozessoren aus deutschen Landen sind ja auĂerordentlich selten, neben Hyperstone und Tricore (Infineon) ist in diesem unserem Lande von solchen Entwicklungen nur relativ wenig zu finden. Die MĂŒnchner Firma PACT hat nun drei Jahre lang im Geheimen an einer âeXtrem Processor Plattformâ XPP getĂŒftelt, eine Mischung aus CPU, DSP und FPGA. Die erste Implementierung namens XPU128 besteht aus 128 Einzelprozessoren, die sich in beliebigen Topologien zusammenschalten lassen - wobei sich der Chip oder auch Teilbereiche davon zur Laufzeit jederzeit umkonfigurieren lassen.
|
XPP: ein massiv-paralleles Hardware-Design mit 128 Prozessoren aus deutschen Landen Bild: PACT |
Bei 100 MHz Takt und recht theoretischen vier gleichzeitigen Operationen pro Prozessor kann der XPU128 mehr als 50 GOPS (Giga Operations Per Second) erreichen und wird so zum âWorld Most Powerful 32-Bit-Processorâ. Das Prinzip Ă€hnelt dem der rekonfigurierbaren Bausteine (FPGA), nur dass hier die einzelnen Zellen nicht aus wenigen Gattern bestehen, sondern aus kompletten 32-Bit-ALUs (Arithmetic Logic Unit). Hinzu kommen 32 unabhĂ€ngige Speicherelemente von jeweils 1 KByte.
Ganz neu sind solch massiv-parallele Designs nicht. In den 80er Jahren gab es schon die Connection Machine, spĂ€ter MasPar und dann auch die so genannten Xputer. Diese arbeiten ebenfalls mit rekonfigurierbarer Logik, bekannt wurde hier die âKresssche Maschineâ, die sich auch Field Programmable ALU Array (FPAA) nannte. Doch all diesen Designs war kein groĂer Erfolg vergönnt, vielleicht wird das ja mit XPP anders. HierfĂŒr hat der MitbegrĂŒnder und Chefentwickler Martin Vorbach einen neuen, patentierten Weg gefunden, die Datenströme miteinander zu synchronisieren, sodass auch Kontrollstrukturen wie bedingte SprĂŒnge machbar sind: das Ergebnis einer ALU-Operation rekonfiguriert einfach zur Laufzeit den weiteren Weg der Daten durch das Prozessor-Array.
XPP128 adressiert getrennte Speicher fĂŒr Input und Output der Daten, auf die er mit jeweils 3,2 GByte/s zugreifen kann. FĂŒr die Programmierung kommt derzeit eine Native Mapping Language (NML) zum Einsatz, die Ă€hnlich wie Excel die einzelnen Prozessorzellen in der Matrix absolut ($1,$2) oder relativ (1,2) adressiert. Niklaus Wirth, der groĂe Nestor der Compilertechnik von der ETH ZĂŒrich, entwickelt fĂŒr XPP eine visuelle Programmiersprache namens Lela. Auch ein C-Compiler befindet sich in der Entstehung. Das mit insgesamt zwanzig Patenten abgesicherte Prozessordesign soll im FrĂŒhjahr 2001 auf den Markt. In der Zwischenzeit können sich Interessenten schon mal den Simulator (unter Linux) von der PACT-Website www.pactcorp.com herunterladen.
Alte HĂŒte
Warum Cahner Intels Vice President Billy Siu die Möglichkeit gab, mit Marketing-Gerede rund um den Pentium 4 die erste Session des Forums zu eröffnen, bleibt schleierhaft. Sius vielleicht wichtigste Aussage war, dass es sich beim Pentium 4 um den leistungsfĂ€higsten Desktop-Prozessor handeln soll. Ob er da nicht den Mund zu voll genommen hat, wird sich Ende November im Vergleich zum 1,2- oder vielleicht dann schon 1,3-GHz-Athlon zeigen mĂŒssen. Immerhin schickte Intel anschlieĂend, wie auf dem Forum ansonsten ĂŒblich, auch einen echten Chip-Architekten ins Rennen - doch Michael Upton wiederholte im Wesentlichen nur Bekanntes vom IDF. Recht versteckt enthielt seine PrĂ€sentation allerdings doch einige bislang unbekannte Feinheiten der Pentium-4-Architektur. So verteilt der Pentium-4-Scheduler die Load/Store-Operationen ĂŒber eine eigene Memory-Queue an die Address-Generation-Unit (AGU), die ebenso wie die ALU âdouble pumpedâ lĂ€uft. Und neben dieser schnellen ALU fĂŒr einfache Befehle gibt es noch eine Slow-ALU, die lĂ€nger dauernde komplexe Befehle wie Multiplikation oder Shift beackert. SchlieĂlich beherrscht der Pentium 4 auch einen Hardware-Prefetch. Damit kann die Hardware schon lange vor der AusfĂŒhrung einen wahrscheinlichen Datenzugriff erkennen und die Daten schon mal in den kleinen Daten-Cache vorladen. Bislang musste man das per Software mit dem Prefetch-Befehl durchfĂŒhren.
Ein paar Roadmap-Neuigkeiten steuerte Intels Mobil-Fraktion bei. In der ersten HĂ€lfte des nĂ€chsten Jahres will der Chip-Gigant mit Strom sparenden 1-GHz-Prozessoren auf den Markt und dann mit Ultra-Low-Voltage von unter einem Volt und 0,13-”m-Prozesstechnologie aufwarten. SchlieĂlich soll in etwa zwei Jahren ein ominöser, von Grund auf fĂŒr Mobile-Betrieb entwickelter Pentium-III-Nachfolger fertig sein, der als StromsparkĂŒnstler alles in den Schatten stellen soll, was im Mini- und Sub-Notebook-Bereich so verbreitet ist, insbesondere also auch Transmetas Crusoe. Doch jetzt schon, so behauptete Mobile-Chef Frank Spindler, sei der Low-Power Pentium III mit Speedstep und bei 1,1 V zusammen mit dem MX-Chipsatz bei typischen Anwendungen sparsamer als Konkurrent Crusoe. In 0,13-”m-Technik sollen selbst die Gigahertz-Prozessoren bei typischen Applikationen nur etwa 1,5 Watt verbrauchen. FĂŒr 700 MHz und weniger als 1 Volt Core-Spannung gibt Intel 0,5 bis 1 Watt inklusive Northbridge an.
Ăhnlich wie Intel stellte auch AMD keine neuen Prozessoren vor. Die PrĂ€sentation von Vice President Rich Heye beschrĂ€nkte sich auf den Dual-Prozessor-Chipsatz 760MP, der Anfang nĂ€chsten Jahres auf den Markt kommen soll. Die Besonderheit der Athlon-Multiprozessorlösung ist ein erweitertes Daten-Konsistenz-Protokoll MOESI (wobei O fĂŒr Owner steht), das zu weniger Speicherzugriffen fĂŒhrt als das klassische MESI-Konzept. Einen lauffĂ€higen Prototyp mit zwei 1,2 GHz Athlons und DDR-SDRAM-266 prĂ€sentierte AMD allerdings nur hinter verschlossenen TĂŒren. AMDs Marketing Manager Bob Mitton verweigerte jeglichen Blick in das verschlossene System, offenbar war es nur ein roh zusammengezimmerter Prototyp. Zum Mustang teilte Mitton lediglich mit, dass er ebenfalls im ersten Halbjahr 2001 auf den Markt kommen und auĂer dem gröĂeren Cache keinerlei Ănderung in der Architektur aufweisen soll, insbesondere auch keine verbesserte Sprungvorhersageeinheit besitzt. Ob Mitton da wirklich die Wahrheit gesagt hat, bleibt abzuwarten. Andere âgewöhnlich gut unterrichtete Quellenâ berichten jedenfalls von einigen interessanten Ănderungen. Solche schönen neuen Features wie Hardware-Prefetch etwa könnte Athlon/Mustang jedenfalls auch bewerkstelligen.
Wie Rich Heye weiterhin ausfĂŒhrte, will AMD mit dem Dual-Athlon vor allem ins ServergeschĂ€ft einsteigen. Doch Frontend-Technologie, insbesondere DDR-Speicher, ist im ServergeschĂ€ft nicht unbedingt gefragt, jedenfalls noch nicht. Das gaben die Vertreter arrivierter Serverfirmen dem Frischling AMD im Rahmen einer Podiumsdiskussion zu verstehen. Hier zĂ€hlt weniger die Performance als vielmehr die ZuverlĂ€ssigkeit - und die muss DDR-SDRAM erst noch beweisen.
UnterstĂŒtzung bekommt AMD in dem DDR-Bereich verstĂ€rkt von Micron, bisher eher als Hersteller von Speichermodulen bekannt. Nun wagt der Konzern den Schritt zur âanderen Seiteâ des Speicherbusses und stellt unter dem Codenamen âMambaâ einen eigenen Chipsatz fĂŒr den Athlon und Duron vor. Er enthĂ€lt integriert so genanntes Embedded DRAM von 8 MByte, welches als L3-Cache dient.
Die Samuel-Kollektion
Glenn Henry, der Chef der jetzt zu VIA gehörenden Centaur Technology, gab einen Ăberblick ĂŒber die Prozessor-Roadmap seiner Firma und den neuen C5X-Prozessor. Derzeit verkauft Via den C5A (Codename Samuel) unter dem offiziellen Namen Cyrix III mit 500 bis 667 MHz bei 1,9 Volt Core-Spannung. Der Nachfolger C5B (Samuel II) in 0,15-”m-Prozess (1,5 Volt) ist bereits als Prototyp erhĂ€ltlich. Er besitzt einen L2-Cache von 64 KByte GröĂe (Exklusiv-Cache wie beim AMD Duron), aber auch diverse Architekturverbesserungen. Der Chip ist fĂŒr 600 bis 733 MHz Takt ausgelegt. Ihm folgt der C5C, der zum Teil in 0,13-”m-Prozess gefertigt werden soll (1,2 V, 733 bis 867 MHz).
|
Der Nachfolger von VIAs Cyrix III (Samuel), der C5X (Ezra), wird eine komplett andere Architektur aufweisen: mit Ăbersetzung in RISC-artige ”OPs und Out-of-Order-Execution. Bild: VIA |
Aufsehen erregte Henry mit dem C5X-Chip (âEzraâ), der Ă€hnlich wie P6 und K6/Athlon nun mit einem Ăbersetzer von x86-Code in RISC-artige ”OPs arbeitet. Die BefehlsausfĂŒhrung erfolgt im Unterschied zu den frĂŒheren Designs out-of-Order. Von 3Dnow! nimmt der CX5 wieder Abschied, dafĂŒr wird er gleich zwei SSE-Einheiten aufweisen. Mit 17 Integer-Pipeline-Stufen ist die Pipeline fast so lang wie die vom Pentium 4. Damit (und mit der 0,13-”m-Prozesstechnologie) soll der fĂŒr das dritte Quartal 2001 angekĂŒndigte Chip 1,2 GHz erreichen. Die Cache-GröĂen bleiben genauso wie beim C5B/C auf je 64 KByte (L1: Instruktionen und Daten) und 64 Kbyte fĂŒr L2. Ebenfalls erhalten bleibt dank der 0,13-”m-Strukturen die Die-GröĂe des auf 20 Millionen Transistoren angewachsenen Chips von 55 mm2.
Mehr Power
Motorola gab ein Update zum G4+, dessen Architektur auf dem letztjĂ€hrigen Forum vorgestellt worden war. Das so genannte G4-Apollo-Design unterscheidet sich vom G4+ hauptsĂ€chlich durch die Verwendung von SOI-Technik (Silicon On Insulator). Hinzugekommen sind ein paar Features wie âCache way Lockingâ fĂŒr den L1-Cache und die Verwendung des L3-Caches (Ă€hnlich wie beim L2 des Motorola MPC7410) als Highspeed-Memory. SOI beschleunigt das Design laut David Bearden um 22 Prozent. Damit sollen die Motorola-Apollo-Chips im 0,18-”m-Prozess mehr als 1 GHz Takt erreichen. Die typische Leistungsaufnahme gibt Motorola mit 23 W bei 1 GHz an (10 W bei 666 MHz). Bearden vermied es, irgendwelche Termine zum G4+ und zum Apollo zu nennen. Ein baldiger G4+ könnte den Aktienkurs der âabgestĂŒrztenâ Firma Apple vielleicht wieder auf die SprĂŒnge helfen.
PowerPC-Partner IBM enthĂŒllte die Feinheiten der Mikroarchitektur des âMonster-Prozessorsâ Power4. Dieser auf dem letztjĂ€hrigen Forum in den GrundzĂŒgen vorgestellte Chip enthĂ€lt zwei unabhĂ€ngige 64-bittige Power-Kerne mit eigenen L1-Caches (32 KByte Instruktionen und 64 KByte Daten). Die Daten-Caches sind triple-ported, das heiĂt, sie erlauben gleichzeitig zwei Lese- und einen Schreibzugriff. Auch Hardware Prefetch gehört mit zu den Features des Power4.
|
Der Monster-Chip schlechthin: Power4 mit den geheimnisvollen CIU-Switch und dem Fabric-Controller, die aus IBMs Mainframe Technologie in den Chip hineinwanderten. Bild: IBM |
Den beiden Prozessorkernen hat IBM ĂŒber einen so genannten CIU-Switch gleich drei L2-Caches zur Seite gestellt, jeder inklusive Tags 512 KByte groĂ und mit einem eigenen L2-Controller ausgerĂŒstet. Sie arbeiten 8fach assoziativ und sind mit einer Bandbreite von ĂŒber 100 GByte/s an die L1-Caches angebunden. Auch die Controller fĂŒr externe, 32 MByte groĂe L3-Caches (eDRAM) sind im Power4 bereits integriert. Vier solcher Doppelprozessoren können in einem Multichip-Modul ĂŒber den so genannten GX-Bus mit mehr als 4 GByte/s miteinander kommunizieren. Und vier solcher Multi-Chip-Module lassen sich ohne weitere Hardwarezusatz zu einem 32-Wege SMP-System zusammenschalten. Der 64-Bit-Prozessor soll mit Taktraten von deutlich ĂŒber 1 GHz im zweiten Halbjahr 2001 auf dem Markt erscheinen.
Auch IBMs Mainframe-Line S/390 wird jetzt 64-bittig. Der S/390-Freeway löst den 32-bittigen G6 ab. Der aus 47 Millionen Transistoren bestehende Freeway besitzt die bei weitem gröĂten L1-Caches: Zweimal 256 KByte fĂŒr Instruktionen und Daten. Ein L2-Cache befindet sich nicht onboard, dafĂŒr aber eine spezielle Compression/Translator-Unit. IBM hat Freeway fĂŒr den Multiprozessorbetrieb optimiert und will bis zu 20 Prozessoren auf ein Multi-Chip-Modul packen.
Samsung will dem bestehenden Alpha 21264 noch vor dem Erscheinen der nĂ€chsten Alpha-Generation (21364) einige Verbesserungen zugute kommen lassen. Mit dem 0,18-”m-Kupfer-Prozess soll in der ersten HĂ€lfte des nĂ€chsten Jahres 1,25 GHz erzielt werden. FĂŒr die zweite JahreshĂ€lfte 2001 ist geplant, einen L2-Cache von 1,85 MByte zu integrieren (21264E). Der arbeitet mit 417 MHz DDR und ist damit knapp 30 Prozent schneller als ein externer L2-Cache mit 8 MByte.
Eingebettet
ST Microelectronics, ehemals SGS-Thomson Microelectronics, stellte die nĂ€chste Generation ihrer x86-kompatiblen System-On-Chip-Familie (SOC) namens STPC Galaxy vor. Das KernstĂŒck der Galaxy-Familie bildet der neue hochintegrierte Core CP250 mit einer schnellen Gleitkomma-Einheit (FPU) mit Triple-Issue-MMX-Technik. Die ersten Mitglieder der Galaxy-Familie heiĂen STPC Vega und STPC Pictor. Beide kommen mit dem CP250-Kern, einer 64-bittigen Unified-Memory-Architektur (UMA), SDRAM-Controller und einem PCI Master/Slave-Controller. Der CP250 ist eine Weiterentwicklung des x86-Prozessors von Rise Technology. Beide Firmen hatten Anfang dieses Jahres ein Abkommen ĂŒber die gemeinsame Entwicklung von SOC-Produkten abgeschlossen.
Um Rise war es in den letzten Monaten reichlich still geworden. Doch nun zeigte die Firma ihren iDragon mP6-Prozessor, der sich durch extrem niedrigen Stromverbrauch auszeichnet. Ein Demo-System wurde lediglich von einer kleinen 1,5-V-Batterie (AA) gespeist.
Netzwerk-Prozessoren sind weiterhin die derzeitigen Lieblinge der Chip-Industrie. Und so durften sie natĂŒrlich auch auf dem Microprocessor Forum nicht fehlen. Startup-Firmen SiByte, XStream Logic und Improv System zeigten ihre Versionen zu diesem Thema, die weitgehend bereits auf dem Embedded Processor Forum im FrĂŒhjahr vorgestellt wurden.
So etwa hatte SiByte ihren auf MIPS beruhenden SB-1 Core dort schon vorgestellt. Jetzt prĂ€sentierte SiByte den SB-1250, auch Mercurian Processor genannt. Es handelt sich um ein kohĂ€rentes Chip-Multiprozessor-System (CMP) fĂŒr Netzwerk-Operationen. Der Chip arbeitet unter anderem mit zwei SB-1-Cores, 512-KByte L2-Cache und einem DDR-Memory-Controller. FĂŒr die interne Ăbertragung von Daten und Instruktionen sorgt der 256 Bit breite ZBbus, der insgesamt eine Bandbreite von 128 Gbit/s bietet. Die beiden SB-1-Cores teilen sich den 4-Wege assoziativen L2-Cache. Laut SiByte profitieren vor allem Netzwerk-Equipment-OEMs von Mercurians skalierbarer und kohĂ€renter Multiprozessor-Architektur.
Ăhnlich wie SiByte zeigte Improv System auf dem Forum eine Implementation ihres Cores namens Jazz-16. Improvs Lösung names Acappella ist ein so genannter Voice-over-Packet (VoP)-Prozessor. Er soll die Konvertierung des Sprachverkehrs vom öffentlichen Telefonnetz in digitale, also IP-Netzwerke, - und zurĂŒck - beschleunigen. Die Acapella-Architektur besteht aus zwei Jazz-Cores, die mit multiplen MAC-48 und Sprach-Codecs zusammenarbeiten. AuĂerdem kommt Acapella mit Anwendungs-Software wie etwa Echo-Cancellation, IP- und ATM-Encapsulation und einer Host-Interface C-Bibliothek.
XStream Logic prĂ€sentierte das auf der Networld+Interop in Atlanta noch hinter verschlossenen TĂŒren gezeigte Design eines Netzwerk-Kommunikations-Prozessors mit Multithreading (siehe c't 21/00 Seite 50). Und so gab es auf dem Forum, dem ersten offiziellen Auftritt von XStream, keine bahnbrechenden Neuigkeiten in Bezug auf die GröĂe des Chips, die zu erwartende Performance oder die Anzahl der Transistoren.
Informativ
Das andere Schlagwort neben den Netzwerkprozessoren heiĂt Information Appliances. Das ist ein Sammelbegriff fĂŒr tragbare netzunabhĂ€ngige GerĂ€te wie Mobiltelefone, Kameras, MP3-Spieler, Webpads, PDAs, aber auch fĂŒr Settop-Boxen, Spiel-Konsolen, digitale TV-Recorder, DVD-Player sowie Thin Clients und Internet- und E-Mail-AnschlussgerĂ€te. StĂ€rkste Prozessorlinie hier ist die ARM-Architektur und die ist weiter im Aufwind. Neue Kerne unterstĂŒtzen SIMD-Media-Instruktionen und Java-Extensions (Jazelle). Auch ARM-Clones gibt es inzwischen: PicoTurbos CPUs (Pt-100, -110, -120), die ARM-Code ausfĂŒhren können ohne - laut PicoTurbo - die ARM-Patente zu verletzen. Toshiba kommt mit einem neuen MIPS-kompatiblen Kern (TX97) mit Multimedia-Vektorerweiterung. STMicroelectronics und Hewlett-Packard basteln an einem VLIW-Prozessor ST-200 fĂŒr Media-orientierte Applikationen, der fĂŒr spezifische Aufgaben vier- bis zwölfmal schneller als vergleichbare RISC-Kerne sein soll. Der erste Prototyp wird fĂŒr Januar 2001 erwartet. Gleichzeitig werkelt STM aber auch mit Hitachi zusammen am SH-5 und Folgedesigns. So soll der Nachfolger SH-6 8 GFlops erzielen. Motorola hat die erste Derivate der Coldfire-Architektur V4e nahezu fertig, die noch ganz nostalgisch mit 68000-Code arbeitet. Daneben konnten aber auch kleinere Entwicklerschmieden mit Designs fĂŒr diesen Markt aufwarten, etwa ARC mit einem konfigurierbaren Core mit DSP-Möglichkeiten (Tangent 4) oder Vulcan mit einem Java-Prozessor namens Moon. (as) (as)