Kontrastprogramm

Auf dem diesjährigen 13ten Microprocessor Forum ging es wie üblich um neue Prozessor-Designs, um größte, schnellste und kleinste Prozessoren, um Stromfresser und Stromsparer - aber auch um Chipsätze und Speicher. Doch Michael Slater, der Oberguru der internationalen Prozessorszene, der als Herausgeber des Insider-Blattes Microprocessor Report (MPR) zwölf Jahre lang für ‘sein Kind’, das Microprocessor Forum, gesorgt hatte, ist derweil zur Softwareseite ‘desertiert’.

In Pocket speichern vorlesen Druckansicht
Lesezeit: 17 Min.
Von
  • Dr. Sabine Cianciolo
  • Andreas Stiller
Inhaltsverzeichnis

Skandierte Slater noch vor wenigen Jahren: ‘Das Einzige, was zählt, ist Performance, Performance, Performance’, - so war er im letzten Jahr schon bedächtiger: ‘Warum mehr Performance als genug?’ fragte er nachdenklich. Und jetzt hat er sich mit seiner Firma PhotoTablet ganz der Software verschrieben: ‘Was heutzutage hauptsächlich zählt, ist Software’ - sagte Slater zu c't. Die Hardware sei schnell genug. Das steht natürlich im Kontrast zum Themenbereichs des Forums, wo eben diese Hardware im Mittelpunkt steht. Auf dem Forum in San Jose, dem Herzen des Silicon Valley, ist Slater jetzt nur noch Gast. Das veranstaltet nun Cahner MicroDesign Resources, die auch den MP-Report verlegen.

Wie in all den Jahren zuvor, war das Forum gut besucht, wenngleich diesmal richtige Highlights im Prozessorgeschehen ausblieben. Immerhin gab es etliche Präzisierungen und Updates, ein paar Roadmaps, diverse Andeutungen und hier und da doch ein paar Überraschungen.

Mit einer solchen Überraschung wartete bereits am Vortag des Forums die deutsche Startup-Firma PACT auf: nämlich mit einem massiv-parallelen Prozessordesign. Prozessoren aus deutschen Landen sind ja außerordentlich selten, neben Hyperstone und Tricore (Infineon) ist in diesem unserem Lande von solchen Entwicklungen nur relativ wenig zu finden. Die Münchner Firma PACT hat nun drei Jahre lang im Geheimen an einer ‘eXtrem Processor Plattform’ XPP getüftelt, eine Mischung aus CPU, DSP und FPGA. Die erste Implementierung namens XPU128 besteht aus 128 Einzelprozessoren, die sich in beliebigen Topologien zusammenschalten lassen - wobei sich der Chip oder auch Teilbereiche davon zur Laufzeit jederzeit umkonfigurieren lassen.

XPP: ein massiv-paralleles Hardware-Design mit 128 Prozessoren aus deutschen Landen
Bild: PACT

Bei 100 MHz Takt und recht theoretischen vier gleichzeitigen Operationen pro Prozessor kann der XPU128 mehr als 50 GOPS (Giga Operations Per Second) erreichen und wird so zum ‘World Most Powerful 32-Bit-Processor’. Das Prinzip ähnelt dem der rekonfigurierbaren Bausteine (FPGA), nur dass hier die einzelnen Zellen nicht aus wenigen Gattern bestehen, sondern aus kompletten 32-Bit-ALUs (Arithmetic Logic Unit). Hinzu kommen 32 unabhängige Speicherelemente von jeweils 1 KByte.

Ganz neu sind solch massiv-parallele Designs nicht. In den 80er Jahren gab es schon die Connection Machine, später MasPar und dann auch die so genannten Xputer. Diese arbeiten ebenfalls mit rekonfigurierbarer Logik, bekannt wurde hier die ‘Kresssche Maschine’, die sich auch Field Programmable ALU Array (FPAA) nannte. Doch all diesen Designs war kein großer Erfolg vergönnt, vielleicht wird das ja mit XPP anders. Hierfür hat der Mitbegründer und Chefentwickler Martin Vorbach einen neuen, patentierten Weg gefunden, die Datenströme miteinander zu synchronisieren, sodass auch Kontrollstrukturen wie bedingte Sprünge machbar sind: das Ergebnis einer ALU-Operation rekonfiguriert einfach zur Laufzeit den weiteren Weg der Daten durch das Prozessor-Array.

XPP128 adressiert getrennte Speicher für Input und Output der Daten, auf die er mit jeweils 3,2 GByte/s zugreifen kann. Für die Programmierung kommt derzeit eine Native Mapping Language (NML) zum Einsatz, die ähnlich wie Excel die einzelnen Prozessorzellen in der Matrix absolut ($1,$2) oder relativ (1,2) adressiert. Niklaus Wirth, der große Nestor der Compilertechnik von der ETH Zürich, entwickelt für XPP eine visuelle Programmiersprache namens Lela. Auch ein C-Compiler befindet sich in der Entstehung. Das mit insgesamt zwanzig Patenten abgesicherte Prozessordesign soll im Frühjahr 2001 auf den Markt. In der Zwischenzeit können sich Interessenten schon mal den Simulator (unter Linux) von der PACT-Website www.pactcorp.com herunterladen.

Warum Cahner Intels Vice President Billy Siu die Möglichkeit gab, mit Marketing-Gerede rund um den Pentium 4 die erste Session des Forums zu eröffnen, bleibt schleierhaft. Sius vielleicht wichtigste Aussage war, dass es sich beim Pentium 4 um den leistungsfähigsten Desktop-Prozessor handeln soll. Ob er da nicht den Mund zu voll genommen hat, wird sich Ende November im Vergleich zum 1,2- oder vielleicht dann schon 1,3-GHz-Athlon zeigen müssen. Immerhin schickte Intel anschließend, wie auf dem Forum ansonsten üblich, auch einen echten Chip-Architekten ins Rennen - doch Michael Upton wiederholte im Wesentlichen nur Bekanntes vom IDF. Recht versteckt enthielt seine Präsentation allerdings doch einige bislang unbekannte Feinheiten der Pentium-4-Architektur. So verteilt der Pentium-4-Scheduler die Load/Store-Operationen über eine eigene Memory-Queue an die Address-Generation-Unit (AGU), die ebenso wie die ALU ‘double pumped’ läuft. Und neben dieser schnellen ALU für einfache Befehle gibt es noch eine Slow-ALU, die länger dauernde komplexe Befehle wie Multiplikation oder Shift beackert. Schließlich beherrscht der Pentium 4 auch einen Hardware-Prefetch. Damit kann die Hardware schon lange vor der Ausführung einen wahrscheinlichen Datenzugriff erkennen und die Daten schon mal in den kleinen Daten-Cache vorladen. Bislang musste man das per Software mit dem Prefetch-Befehl durchführen.

Ein paar Roadmap-Neuigkeiten steuerte Intels Mobil-Fraktion bei. In der ersten Hälfte des nächsten Jahres will der Chip-Gigant mit Strom sparenden 1-GHz-Prozessoren auf den Markt und dann mit Ultra-Low-Voltage von unter einem Volt und 0,13-µm-Prozesstechnologie aufwarten. Schließlich soll in etwa zwei Jahren ein ominöser, von Grund auf für Mobile-Betrieb entwickelter Pentium-III-Nachfolger fertig sein, der als Stromsparkünstler alles in den Schatten stellen soll, was im Mini- und Sub-Notebook-Bereich so verbreitet ist, insbesondere also auch Transmetas Crusoe. Doch jetzt schon, so behauptete Mobile-Chef Frank Spindler, sei der Low-Power Pentium III mit Speedstep und bei 1,1 V zusammen mit dem MX-Chipsatz bei typischen Anwendungen sparsamer als Konkurrent Crusoe. In 0,13-µm-Technik sollen selbst die Gigahertz-Prozessoren bei typischen Applikationen nur etwa 1,5 Watt verbrauchen. Für 700 MHz und weniger als 1 Volt Core-Spannung gibt Intel 0,5 bis 1 Watt inklusive Northbridge an.

Ähnlich wie Intel stellte auch AMD keine neuen Prozessoren vor. Die Präsentation von Vice President Rich Heye beschränkte sich auf den Dual-Prozessor-Chipsatz 760MP, der Anfang nächsten Jahres auf den Markt kommen soll. Die Besonderheit der Athlon-Multiprozessorlösung ist ein erweitertes Daten-Konsistenz-Protokoll MOESI (wobei O für Owner steht), das zu weniger Speicherzugriffen führt als das klassische MESI-Konzept. Einen lauffähigen Prototyp mit zwei 1,2 GHz Athlons und DDR-SDRAM-266 präsentierte AMD allerdings nur hinter verschlossenen Türen. AMDs Marketing Manager Bob Mitton verweigerte jeglichen Blick in das verschlossene System, offenbar war es nur ein roh zusammengezimmerter Prototyp. Zum Mustang teilte Mitton lediglich mit, dass er ebenfalls im ersten Halbjahr 2001 auf den Markt kommen und außer dem größeren Cache keinerlei Änderung in der Architektur aufweisen soll, insbesondere auch keine verbesserte Sprungvorhersageeinheit besitzt. Ob Mitton da wirklich die Wahrheit gesagt hat, bleibt abzuwarten. Andere ‘gewöhnlich gut unterrichtete Quellen’ berichten jedenfalls von einigen interessanten Änderungen. Solche schönen neuen Features wie Hardware-Prefetch etwa könnte Athlon/Mustang jedenfalls auch bewerkstelligen.

Wie Rich Heye weiterhin ausführte, will AMD mit dem Dual-Athlon vor allem ins Servergeschäft einsteigen. Doch Frontend-Technologie, insbesondere DDR-Speicher, ist im Servergeschäft nicht unbedingt gefragt, jedenfalls noch nicht. Das gaben die Vertreter arrivierter Serverfirmen dem Frischling AMD im Rahmen einer Podiumsdiskussion zu verstehen. Hier zählt weniger die Performance als vielmehr die Zuverlässigkeit - und die muss DDR-SDRAM erst noch beweisen.

Unterstützung bekommt AMD in dem DDR-Bereich verstärkt von Micron, bisher eher als Hersteller von Speichermodulen bekannt. Nun wagt der Konzern den Schritt zur ‘anderen Seite’ des Speicherbusses und stellt unter dem Codenamen ‘Mamba’ einen eigenen Chipsatz für den Athlon und Duron vor. Er enthält integriert so genanntes Embedded DRAM von 8 MByte, welches als L3-Cache dient.

Glenn Henry, der Chef der jetzt zu VIA gehörenden Centaur Technology, gab einen Überblick über die Prozessor-Roadmap seiner Firma und den neuen C5X-Prozessor. Derzeit verkauft Via den C5A (Codename Samuel) unter dem offiziellen Namen Cyrix III mit 500 bis 667 MHz bei 1,9 Volt Core-Spannung. Der Nachfolger C5B (Samuel II) in 0,15-µm-Prozess (1,5 Volt) ist bereits als Prototyp erhältlich. Er besitzt einen L2-Cache von 64 KByte Größe (Exklusiv-Cache wie beim AMD Duron), aber auch diverse Architekturverbesserungen. Der Chip ist für 600 bis 733 MHz Takt ausgelegt. Ihm folgt der C5C, der zum Teil in 0,13-µm-Prozess gefertigt werden soll (1,2 V, 733 bis 867 MHz).

Der Nachfolger von VIAs Cyrix III (Samuel), der C5X (Ezra), wird eine komplett andere Architektur aufweisen: mit Übersetzung in RISC-artige µOPs und Out-of-Order-Execution.
Bild: VIA

Aufsehen erregte Henry mit dem C5X-Chip (‘Ezra’), der ähnlich wie P6 und K6/Athlon nun mit einem Übersetzer von x86-Code in RISC-artige µOPs arbeitet. Die Befehlsausführung erfolgt im Unterschied zu den früheren Designs out-of-Order. Von 3Dnow! nimmt der CX5 wieder Abschied, dafür wird er gleich zwei SSE-Einheiten aufweisen. Mit 17 Integer-Pipeline-Stufen ist die Pipeline fast so lang wie die vom Pentium 4. Damit (und mit der 0,13-µm-Prozesstechnologie) soll der für das dritte Quartal 2001 angekündigte Chip 1,2 GHz erreichen. Die Cache-Größen bleiben genauso wie beim C5B/C auf je 64 KByte (L1: Instruktionen und Daten) und 64 Kbyte für L2. Ebenfalls erhalten bleibt dank der 0,13-µm-Strukturen die Die-Größe des auf 20 Millionen Transistoren angewachsenen Chips von 55 mm2.

Motorola gab ein Update zum G4+, dessen Architektur auf dem letztjährigen Forum vorgestellt worden war. Das so genannte G4-Apollo-Design unterscheidet sich vom G4+ hauptsächlich durch die Verwendung von SOI-Technik (Silicon On Insulator). Hinzugekommen sind ein paar Features wie ‘Cache way Locking’ für den L1-Cache und die Verwendung des L3-Caches (ähnlich wie beim L2 des Motorola MPC7410) als Highspeed-Memory. SOI beschleunigt das Design laut David Bearden um 22 Prozent. Damit sollen die Motorola-Apollo-Chips im 0,18-µm-Prozess mehr als 1 GHz Takt erreichen. Die typische Leistungsaufnahme gibt Motorola mit 23 W bei 1 GHz an (10 W bei 666 MHz). Bearden vermied es, irgendwelche Termine zum G4+ und zum Apollo zu nennen. Ein baldiger G4+ könnte den Aktienkurs der ‘abgestürzten’ Firma Apple vielleicht wieder auf die Sprünge helfen.

PowerPC-Partner IBM enthüllte die Feinheiten der Mikroarchitektur des ‘Monster-Prozessors’ Power4. Dieser auf dem letztjährigen Forum in den Grundzügen vorgestellte Chip enthält zwei unabhängige 64-bittige Power-Kerne mit eigenen L1-Caches (32 KByte Instruktionen und 64 KByte Daten). Die Daten-Caches sind triple-ported, das heißt, sie erlauben gleichzeitig zwei Lese- und einen Schreibzugriff. Auch Hardware Prefetch gehört mit zu den Features des Power4.

Der Monster-Chip schlechthin: Power4 mit den geheimnisvollen CIU-Switch und dem Fabric-Controller, die aus IBMs Mainframe Technologie in den Chip hineinwanderten.
Bild: IBM

Den beiden Prozessorkernen hat IBM über einen so genannten CIU-Switch gleich drei L2-Caches zur Seite gestellt, jeder inklusive Tags 512 KByte groß und mit einem eigenen L2-Controller ausgerüstet. Sie arbeiten 8fach assoziativ und sind mit einer Bandbreite von über 100 GByte/s an die L1-Caches angebunden. Auch die Controller für externe, 32 MByte große L3-Caches (eDRAM) sind im Power4 bereits integriert. Vier solcher Doppelprozessoren können in einem Multichip-Modul über den so genannten GX-Bus mit mehr als 4 GByte/s miteinander kommunizieren. Und vier solcher Multi-Chip-Module lassen sich ohne weitere Hardwarezusatz zu einem 32-Wege SMP-System zusammenschalten. Der 64-Bit-Prozessor soll mit Taktraten von deutlich über 1 GHz im zweiten Halbjahr 2001 auf dem Markt erscheinen.

Auch IBMs Mainframe-Line S/390 wird jetzt 64-bittig. Der S/390-Freeway löst den 32-bittigen G6 ab. Der aus 47 Millionen Transistoren bestehende Freeway besitzt die bei weitem größten L1-Caches: Zweimal 256 KByte für Instruktionen und Daten. Ein L2-Cache befindet sich nicht onboard, dafür aber eine spezielle Compression/Translator-Unit. IBM hat Freeway für den Multiprozessorbetrieb optimiert und will bis zu 20 Prozessoren auf ein Multi-Chip-Modul packen.

Samsung will dem bestehenden Alpha 21264 noch vor dem Erscheinen der nächsten Alpha-Generation (21364) einige Verbesserungen zugute kommen lassen. Mit dem 0,18-µm-Kupfer-Prozess soll in der ersten Hälfte des nächsten Jahres 1,25 GHz erzielt werden. Für die zweite Jahreshälfte 2001 ist geplant, einen L2-Cache von 1,85 MByte zu integrieren (21264E). Der arbeitet mit 417 MHz DDR und ist damit knapp 30 Prozent schneller als ein externer L2-Cache mit 8 MByte.

ST Microelectronics, ehemals SGS-Thomson Microelectronics, stellte die nächste Generation ihrer x86-kompatiblen System-On-Chip-Familie (SOC) namens STPC Galaxy vor. Das Kernstück der Galaxy-Familie bildet der neue hochintegrierte Core CP250 mit einer schnellen Gleitkomma-Einheit (FPU) mit Triple-Issue-MMX-Technik. Die ersten Mitglieder der Galaxy-Familie heißen STPC Vega und STPC Pictor. Beide kommen mit dem CP250-Kern, einer 64-bittigen Unified-Memory-Architektur (UMA), SDRAM-Controller und einem PCI Master/Slave-Controller. Der CP250 ist eine Weiterentwicklung des x86-Prozessors von Rise Technology. Beide Firmen hatten Anfang dieses Jahres ein Abkommen über die gemeinsame Entwicklung von SOC-Produkten abgeschlossen.

Um Rise war es in den letzten Monaten reichlich still geworden. Doch nun zeigte die Firma ihren iDragon mP6-Prozessor, der sich durch extrem niedrigen Stromverbrauch auszeichnet. Ein Demo-System wurde lediglich von einer kleinen 1,5-V-Batterie (AA) gespeist.

Netzwerk-Prozessoren sind weiterhin die derzeitigen Lieblinge der Chip-Industrie. Und so durften sie natürlich auch auf dem Microprocessor Forum nicht fehlen. Startup-Firmen SiByte, XStream Logic und Improv System zeigten ihre Versionen zu diesem Thema, die weitgehend bereits auf dem Embedded Processor Forum im Frühjahr vorgestellt wurden.

So etwa hatte SiByte ihren auf MIPS beruhenden SB-1 Core dort schon vorgestellt. Jetzt präsentierte SiByte den SB-1250, auch Mercurian Processor genannt. Es handelt sich um ein kohärentes Chip-Multiprozessor-System (CMP) für Netzwerk-Operationen. Der Chip arbeitet unter anderem mit zwei SB-1-Cores, 512-KByte L2-Cache und einem DDR-Memory-Controller. Für die interne Übertragung von Daten und Instruktionen sorgt der 256 Bit breite ZBbus, der insgesamt eine Bandbreite von 128 Gbit/s bietet. Die beiden SB-1-Cores teilen sich den 4-Wege assoziativen L2-Cache. Laut SiByte profitieren vor allem Netzwerk-Equipment-OEMs von Mercurians skalierbarer und kohärenter Multiprozessor-Architektur.

Ähnlich wie SiByte zeigte Improv System auf dem Forum eine Implementation ihres Cores namens Jazz-16. Improvs Lösung names Acappella ist ein so genannter Voice-over-Packet (VoP)-Prozessor. Er soll die Konvertierung des Sprachverkehrs vom öffentlichen Telefonnetz in digitale, also IP-Netzwerke, - und zurück - beschleunigen. Die Acapella-Architektur besteht aus zwei Jazz-Cores, die mit multiplen MAC-48 und Sprach-Codecs zusammenarbeiten. Außerdem kommt Acapella mit Anwendungs-Software wie etwa Echo-Cancellation, IP- und ATM-Encapsulation und einer Host-Interface C-Bibliothek.

XStream Logic präsentierte das auf der Networld+Interop in Atlanta noch hinter verschlossenen Türen gezeigte Design eines Netzwerk-Kommunikations-Prozessors mit Multithreading (siehe c't 21/00 Seite 50). Und so gab es auf dem Forum, dem ersten offiziellen Auftritt von XStream, keine bahnbrechenden Neuigkeiten in Bezug auf die Größe des Chips, die zu erwartende Performance oder die Anzahl der Transistoren.

Das andere Schlagwort neben den Netzwerkprozessoren heißt Information Appliances. Das ist ein Sammelbegriff für tragbare netzunabhängige Geräte wie Mobiltelefone, Kameras, MP3-Spieler, Webpads, PDAs, aber auch für Settop-Boxen, Spiel-Konsolen, digitale TV-Recorder, DVD-Player sowie Thin Clients und Internet- und E-Mail-Anschlussgeräte. Stärkste Prozessorlinie hier ist die ARM-Architektur und die ist weiter im Aufwind. Neue Kerne unterstützen SIMD-Media-Instruktionen und Java-Extensions (Jazelle). Auch ARM-Clones gibt es inzwischen: PicoTurbos CPUs (Pt-100, -110, -120), die ARM-Code ausführen können ohne - laut PicoTurbo - die ARM-Patente zu verletzen. Toshiba kommt mit einem neuen MIPS-kompatiblen Kern (TX97) mit Multimedia-Vektorerweiterung. STMicroelectronics und Hewlett-Packard basteln an einem VLIW-Prozessor ST-200 für Media-orientierte Applikationen, der für spezifische Aufgaben vier- bis zwölfmal schneller als vergleichbare RISC-Kerne sein soll. Der erste Prototyp wird für Januar 2001 erwartet. Gleichzeitig werkelt STM aber auch mit Hitachi zusammen am SH-5 und Folgedesigns. So soll der Nachfolger SH-6 8 GFlops erzielen. Motorola hat die erste Derivate der Coldfire-Architektur V4e nahezu fertig, die noch ganz nostalgisch mit 68000-Code arbeitet. Daneben konnten aber auch kleinere Entwicklerschmieden mit Designs für diesen Markt aufwarten, etwa ARC mit einem konfigurierbaren Core mit DSP-Möglichkeiten (Tangent 4) oder Vulcan mit einem Java-Prozessor namens Moon. (as) (as)