Platz da!

Die Zeichen stehen auf Sturm - jedenfalls für Intel. Im April will zunächst AMD mit dem K6 die Performance-Krone ergreifen, bevor Intel laut Plan einen Monat später mit dem Pentium-II und dem MMX-233 zurückschießen kann. Aber da stehen außerdem noch Cyrix und Digital Pfeil bei Fuß, um im Frühsommer in den Kampf einzugreifen.

vorlesen Druckansicht
Lesezeit: 17 Min.
Von
  • Andreas Stiller
  • Uwe Post
Inhaltsverzeichnis

Die Zeiten, in denen Intel, auf dem hohen Roß sitzend, die Szene nach Belieben beherrschte, scheinen vorbei zu sein. Bislang konnte der kalifornische Chip-Gigant immer dann, wenn die Konkurrenz ihm zu nahe kam, zu einer neuen Prozessorgeneration entfleuchen. Man hat die Slogans noch im Ohr: 3 ist besser als 2, 4 ist besser als 3 und so weiter. Ob das jetzt noch klappt, ist mehr als fraglich. Der PPro auf Basis des Sockel 8 hat offenbar keine Zukunft mehr, beim Sockel 7 (in dem der Pentium zu Hause ist) zieht die Konkurrenz vorbei - und ob der Pentium-II (auch Klamath genannt) mit seinem unförmigen Format Erfolg haben wird, bleibt noch abzuwarten.

K6 und M2 können auf eine verbreitete Board-Infrastruktur aufbauen - während der Pentium-II neue Boards erfordert. Sogar ältere Pentium-Boards sind via Upgrade-Sockel K6/M2-tauglich, wenn sie den verhältnismäßig hohen Stromhunger der beiden befriedigen können. Beide Herausforderer unterstützen kompatibel Intels Multimedia-Erweiterung MMX - auch wenn sie diese nicht so nennen dürfen.

AMDs K6 ist jetzt produktionsreif und konnte sich auf dem c't-Prüfstand schon mal mit dem Intel-Dreigespann MMX-233, PPro-200 und Pentium-II-233 (Prototyp) messen. Während man hier also auf konkrete Benchmark-Daten zurückgreifen kann, ist man bei Cyrixens M2 und Digitals neuestem Sproß, dem 21164PC, noch auf Schätzungen und Extrapolationen angewiesen.

Cyrix konnte zwar auf der CeBIT eingeschränkt lauffähige M2-Muster präsentieren (mit 166 MHz Takt, einem Fehler in der Branch- und 17 Fehlern in der MMX-Unit) - benchmarkfähig war diese Version offenbar noch nicht. Zwar hatte IBM kurz vor der CeBIT die nächste Maskenversion fertig gebacken, doch wollte Cyrix sie erst ausführlich testen, bevor sie in die Hände der Presse durfte - schade.

Digital überraschte während der CeBIT mit einer echten Prozessorankündigung (alle anderen drei Prozessorschmieden beließen es bei `Technologie-Demonstrationen´). DECs 21164PC wurde bereits im Oktober auf dem Microprocessor Forum skizziert. Er verfolgt die gleiche Idee wie Intels Klamath: Wie bei nämlichen wurde gegenüber dem teuren Vorgänger (hie Alpha 21164, dort PPro) der L2-Cache ausgelagert, der L1-Cache vergrößert und eine Multimedia-Fähigkeit hinzugefügt. Während AMD, Intel und Cyrix bei 233 und 266 MHz `herumkrebsen´, wartet der 21164PC mit beeindruckenden Taktraten auf: bis zu 533 MHz. War der Alpha-Prozessor bislang softwaremäßig auf einem Nebengleis, so wächst seine Bedeutung proportional zu Windows NT. Microsoft hat NT 5.0 für Alpha angekündigt und laut DEC auch versprochen, endlich neuere Versionen der Office-Suite (Excel, Word, Access ...) fertigzustellen. Außerdem hat DEC mit dem `kompilierenden Emulator´ FX32! ein Tool in der Hand, das Intel-Code mit Pentium-Geschwindigkeit (und besser) auszuführen vermag ... Das dürfte noch spannend werden.

Intel ist nun in der Zwickmühle: betont man stärker die Fließkommaleistung, wie sie moderne 3D-Software erfordert, so kann man sich zwar gegenüber AMD und Cyrix gut in Szene setzen, da deren Prozessoren in dieser Disziplin zumeist unterlegen sind. Andererseits steht bei Fließkomma der Klamath gegenüber den Alpha-Prozessoren auf völlig verlorenem Posten - selbst wenn er mit 300 MHz und mehr daherkommt. Hier dominieren übrigens auch die PowerPCs mit ihren frei adressierbaren 32 FP-Registern, wogegen x86er mit einem mickrigen Stack von 8 FP-Registern auskommen müssen.

Setzt man hingegen stärker auf die Integerleistung, weht Intel ein heftiger K6- und M2-Wind entgegen. Besonders bei dem in den USA immer noch beliebten Landmark-2.0-Benchmark wird das deutlich, wo der K6 den Klamath-Prototyp geradezu düpiert.

Bleibt noch MMX; hier hat Intel dank zweier MMX-Pipelines die Nase klar vorn. MMX wird zwar stark beworben, ist aber auf wenige Einsatzzwecke beschränkt - und `beißt´ sich in vielen Fällen (vor allem bei 3D-Grafik) mit Fließkommaberechnungen. Für den dafür nötigen Context-Switch brauchen Intels Prozessoren unverhältnismäßig viel Zeit - AMDs K6 und insbesondere Cyrix M2 beherrschen diesen Wechsel deutlich besser. Es nützt mitunter nichts, superschnell zu laufen - wenn man beim Staffelwechsel versagt ...

Die Paradebeispiele wie Chromakeying oder Alpha Blending (Image Processing) dienen zwar als Grundlage für den Intel-Media-Bench (IMB) - sind aber in der Praxis nahezu bedeutungslos. Anders sieht es da schon mit dem MPEG-Decoding aus (ebenfalls ein Bestandteil des IMB). Beim Image Processing liegen K6 und M2 zwar nicht auf Klamath-Niveau, können aber dem aktuellen Sockel-7-Kronprinzen MMX-200 Paroli bieten. Und bei MPEG hängt der K6 zumindest den Klamath-Prototyp ab.

DEC hat MMX-artiges für MPEG als wenig tauglich empfunden und statt dessen MVI (Motion Video Instructions) entwickelt. MVI besteht aus wenigen Befehlen, die nur für diesen Einsatzzweck gedacht sind (siehe Kasten). Anders als Intel mußte DEC hierzu keine eigene Einheit mit FPU-Register-Mapping und zeitfressenden Context-Switches bemühen - die Integer-Register sind beim Alpha halt von Haus aus 64bittig. Intel kennt natürlich die schwachen Punkte von MMX und wird wahrscheinlich schon mit der nächsten Prozessorgeneration `Deschutes´ eine erweiterte MMX-Version `MMX2´ einführen.

Intel tut nun alles, um den Konkurrenten den Sockel 7 zu vermiesen - schließlich dominiert die Corporation auch bei den Chipsätzen. So will Intel den schnellen Grafikport AGP nicht für Sockel-7-Chipsätze anbieten, ebensowenig wie höhere Taktraten. Beides bleibt Slot-1-Chipsätzen für Klamath vorbehalten (440LX und 440BX). Den 430HX-Chipsatz will man zugunsten des 430TX einstellen - letzteren hat man `wohlweislich´ auf einen L2-Cache-Bereich von 64 MByte beschänkt, damit er bloß keine Zukunft hat.

Doch AMD hat das Problem erkannt, sich mit der taiwanischen Chipsatzschmiede VIA zusammengetan und steigt jetzt in diesen Geschäftszweig ein. Der AMD640 ist zunächst nur ein durchverkaufter VIA Apollo VP2, für den Herbst ist jedoch eine gemeinsame Weiterentwicklung mit AGP, 100 MHz Systemtakt und weiteren Goodies geplant. Auch Opti, Ali, SiS, ITE wittern ihre Chance und werden sich intensiv um den Sockel 7 kümmern - seine Zukunft dürfte erst mal gesichert sein. Marktbeobachter schätzen, daß es drei Jahre dauern wird, bis Slot-1 den Sockel 7 eingeholt hat. Bis dahin rechnet man mit einer Nachfrage von 200 Millionen Sockel-7-Boards. Wer hier das beste Preis/Leistungsverhältnis bietet, dürfte saniert sein ... Fragt sich nur, ob AMD und die Cyrix-Schmieden diese Nachfrage überhaupt befriedigen können.

An dieser Stelle muß man allerdings betonen, daß Intels GTL+-Bus des PPro- und Klamath-Prozessors deutlich leistungsfähiger ist als das ältliche Bus-Design der Sockel-7-Benutzer. GTL+ ist asynchron, paketorientiert und kann bis zu acht ausstehende Transfers behandeln. In Single-Prozessorsystemen ist dieser auf Durchsatz optimierte Bus jedoch wie `Perlen vor die Säue´ geworfen. Erst in Multiprozessor-Umgebungen kann er wirklich zeigen, was in ihm steckt.

Weder K6 noch M2 (ebensowenig wie K5 und 6x86) sind derzeit multiprozessortauglich, so daß für sie der Pentium-Bus ausreichend ist. Angesichts einer Marktdeckung von über 95 Prozent Single-Prozessorsystemen ist der Verzicht auf Mehrprozessor-Support verschmerzbar. Dennoch wird Intel sicherlich die Multiprozessor-Fähigkeit ihrer Produkte verstärkt in den Vordergrund stellen. Allerdings ist der GTL+-Bus ein Intel-Patent. Wer hierfür Hardware entwickeln will, ist also von Intels Gnaden abhängig. Solch proprietäre Lösungen haben sich jedoch schon des öfteren als Bumerang erwiesen - man denke an IBMs Micro-Channel, der den Niedergang dieser Dynastie im PC-Bereich einleitete. Da kamen dann offene Busse wie EISA, VL und PCI ... und aus war´s mit IBMs Vorreiterrolle.

Nicht ganz unwichtig für den Erfolg neuer Prozessoren ist letztlich ihr Preis. Und hier haben sich AMD und DEC/Mitsubishis nicht lumpen lassen. Mit 464 Dollar (ab 1000) liegt der K6-233 weit unterhalb des geplanten Einstandspreises der Klamath-233 (bei 512 KByte Cache), der auf 624 Dollar (ab 10 0000) taxiert wird. Für den K6-Preis bekommt man von Intel nicht einmal den Pentium-MMX-200 (Preis vom zweiten Quartal). Wichtig für die Wirtschaftlichkeit ist aber vor allem, daß man in vielen Fällen ein vorhandenes - und erprobtes! - Board weiter benutzen kann. Nichts graust einen Systemadministrator mehr als ein Board-Wechsel.

DEC hat den Alpha 21164PC ebenfalls ungewöhnlich günstig positioniert, der kleinste mit 400 MHz ist schon für 295 Dollar (ab 1000) erhältlich. Für die Alphas ist allerdings ein spezielles Board vonnöten (164SX mit DEC-21174-Chipsatz, PB-Cache von 256 KB bis 4 MByte, SD-RAM-Support), über dessen Preis noch nichts zu erfahren war. Aber DEC will auch hier `auf alle Fälle konkurrenzfähig´ sein, so daß das Gesamtsystem auf unter 2600 Dollar zu liegen kommt.

Cyrix hat noch nichts ĂĽber M2-Preise verlauten lassen. Keinesfalls aber wolle man den beim c6x86 gemachten Fehler wiederholen, mit viel zu hohen Preisen in das Rennen einzusteigen.

Für die Tests lieferte uns AMD einen K6-233 Revision 1 samt Referenzsystem. Selbiges war gut bestückt (FIC-PA2011-Board mit VIA-VP2-Chipsatz, 32 MByte SDRAM, 1 MByte L2-Cache, DTP-Cache-Controller, Matrox Millenium etc.), damit es auch einen möglichst guten WinBench97-Wert erzielt (74,9). Wir beschlossen aber, den Vergleich bei nur 512 KByte Cache in einem aktuellen K6-tauglichen TX-Board mit unserer Standard-Umgebung durchzuführen (Asus TX97, Elsa Winner 2000Pro/X, Quantum Fireball, 32 MByte SDRAM). Das Board war zwar noch auf 3,1 V für den K6-233 eingerichtet (der möchte neuerdings lieber 3,2 V), Probleme zeigten sich damit jedoch nicht. Selbst bei nur 2,9 V lief es störungsfrei.

In der Performance erwies sich das TX97-Board gegenĂĽber dem PA2011 ĂĽbrigens trotz kleinerem Cache als mindestens gleichwertig, teilweise war es gar um zwei bis drei Prozent besser.

Der Pentium Pro durfte sich ganz zu Hause fühlen, er lief nämlich in dem Intel-Board Venus VS440 mit Natoma-440FX-Chipsatz. Für den Pentium-II stellte uns Soyo ihr aktuelles Slot-1-Board SY 6KA zur Verfügung, in das wir unseren schon etwas betagten Klamath-Prototyp Rev 0 hineinsteckten. Dieses Modul lieferte ja schon in [1] sehr zum Ärger von Intel erste Benchmark-Ergebnisse (allerdings in einem anderen Board). Leider konnte oder wollte Intel uns immer noch keine aktuelle Produktionsversion des Pentium-II zum Test überlassen - ist doch erst Anfang Mai die offizielle Vorstellung der Kronprinzen. Der Prototyp hat hier und da noch einige Merkwürdigkeiten, so daß die endgültige Performance gut und gerne ein paar Prozent höher liegen dürfte. So funktioniert das Write Combining offenbar nicht. In der BAPCo-Suite macht sich das zwar kaum bemerkbar, aber die MPEG-Wiedergabe würde sich nach den Erfahrungen mit dem PPro erheblich beschleunigen.

Daneben beschrieben wir in [1] eine unerklärliche `Landmark-Schwäche´. Daß Pentium PPro und Klamath gleichermaßen bei diesem ausschließlich im L1-Cache ablaufenden Benchmark im Vergleich zum K6 schlecht abschneiden, ist verständlich, denn in der vom Landmark-Bench gestoppten 16bittigen Integer-Multiplikation liegen sie klar zurück (K6 und M2: 3 Takte, PPro/Klamath 5 Takte, Pentium 11 Takte). Auch bei der Integer-Division obsiegt übrigens der K6. Daneben zeigte es sich, daß die PPro/Klamath-Prozessoren erhebliche Schwierigkeiten mit sogenannten Read-Modify-Write-Befehlen haben, so etwa DEC [mem], welcher bis zu 7 Takte verschlingt (K6 1 Takt). Der PPro kann hierbei besser parallelisieren, beim Klamath-Prototyp schlagen diese Takte hingegen voll zu Buche. Fragt sich, ob das ein Bug oder Feature ist. Mit Landmark 2.0 läßt sich das leicht herausfinden, der PPro-200 erreicht hier Werte um 1200, der K6 von 2400 und der Klamath-Prototyp krebst bei 715 herum.

Bei der weiteren Analyse enttarnte sich noch ein Stolperstein des Klamath-Prototyp. Zugriffe via GS-Segment, also mov ax,gs:[0] dauern eine mittlere Ewigkeit, nämlich 55 Takte. Ansonsten aber entsprechen sich die PPro- und Klamath-Werte, jedenfalls haben wir keine weiteren Bug-verdächtigen Stellen gefunden. Man kann davon ausgehen, daß obige Unbotmäßigkeiten mit der Marktversion des Pentium-II behoben sein werden. Möglicherweise wird Intel von vornherein gleich mit einer 266-MHz-Version ins Rennen gehen.

Um die `inneren Werte´ der Prozessoren abzuklopfen, wurden sie auch ohne L2-Cache und schließlich ganz ohne Cache vermessen. Als Nebenprodukt fiel dabei ab, wie lokal die Benchmark-Software ist, wie stark die Peformance also von L2-Cache und Hauptspeicher abhängt. Hier ergab sich ein erheblicher Unterschied zwischen NT 4.0 und Windows 95 zugunsten von NT, was wohl vorrangig für die bessere Performance unter NT verantwortlich ist.

Es zeigte sich ferner, daß die cachefreie Messung als Abschätzung für die Prozessorkern-Qualität unbrauchbar ist, da PPro/Klamath ohne L1-Cache nahezu hilflos sind: ihre Performance sank auf das Niveau eines 8-MHz-286ers herab. Läßt man den L1-Cache an, schaltet nur L2 ab, so hat Klamath gegen den K6 keine Chance, seine Performance sinkt etwa bei der BAPCo32/NT um durchschnittlich 40 Prozent, während der K6 nur 13 Prozent Performance-Verlust erleidet. Das liegt zum einen natürlich an dem größeren L1-Cache des K6, weitere Untersuchungen unterlegten aber, daß der K6-Kern auch effizienter ist (was Dispatcher-Fähigkeit, Latency- und Throughput-Zeiten angeht). PPro und Klamath zehren ihre Leistungsfähigkeit offensichtlich mehr aus der schnelleren Ankopplung des L2-Caches.

Den inneren Aufbau von K6 und M2 hatten wir schon in der letzten Ausgabe vorgestellt [2], so daĂź wir hier auf eine Wiederholung verzichten wollen. Statt dessen steht die Frage im Vordergrund, welche Performance AMDs neuer Prozessor denn nun bietet.

Die BAPCo32-Suite unter NT 4.0 erbrachte bis auf `Rauschen´ den Beweis: der K6-233 ist bei Standardapplikationen einem Klamath-233 oder PPro-200 ebenbürtig. Der Klamath konnte nur einen ganz geringfügigen Vorsprung herausholen. Ansonsten liefern sich die drei in der wichtigen Busineß-Disziplin einen packenden Dreikampf mit nur unwesentlichen Unterschieden. Demgegenüber fällt der Pentium-MMX etwas zurück, bei 233 MHz aber auch nur um etwa zehn bis 15 Prozent.

Bei fließkommaintensiver Software (c't-Apfelmännchen, POVRay-Raytracing, Audio im Intel-Media-Bench, Quake) können sich die Intel-Prozessoren teilweise erheblich besser in Szene setzen, wiewohl andererseits der Unterschied beim HINT-Benchmark mit Fließkommaberechnungen nur marginal ist. Der K6 gleicht dieses Manko bei rechenintensiver Integer-Software zum guten Teil wieder aus (Hint-Integer, Chess-Benchmark), wo er bis zu 30 Prozent besser als der Klamath-Prototyp dasteht - ganz zu schweigen von den phänomenalen Landmark- und Norton-SI-Ergebnissen. Auch Linux kompilierte der K6 um den Hauch schneller (2 s) als der Klamath-233.

Im MMX-Bereich brilliert hingegen Klamath. Seine beiden MMX-Pipes sind kaum zu schlagen. Während K6 und M2 einen MMX-Befehl pro Takt ausführen, kann Klamath gleichzeitig zwei Befehle durchschleusen. In allen MMX-Benchmarks liegt somit Klamath klar in Front. So schlecht schlägt sich der K6 dennoch nicht, beim Intel Media Bench erreicht er etwa das Niveau eines Pentium-MMX-200.

Mit AMDs K6 kommt endlich Schwung in die Szene. Es war schon ziemlich langweilig, immer den gleichen Meister in der Soccer-7-Oberliga zu haben. Borussia AMD ist erst vor einem Jahr mit dem 75-MHz-K5 in diese Liga aufgestiegen [3] und stellt nun mit dem dreimal schnelleren K6 zumindest kurzzeitig den Tabellenführer. Schon hört man von geheimen Verhandlungen zwischen Intels Co-Trainer Compaq und AMD. Und die Mannschaften von Cyrix und DEC laufen sich mächtig warm, um im Sommer in der Liga kräftig mitmischen zu können. Manager Vobis ist vom DEC-Team ganz begeistert und will hier investieren. Schließlich hat DEC jetzt mit FX32! einen Wunderstürmer, der weiß, wie man gegen Intel Tore schießt.

Auch wenn Intels Chips bei Fließkomma und MMX etwas performanter als K6 und M2 sind, nicht zuletzt wegen ihres besseren Preis/Leistungsverhältnisses werden sie sicherlich einen guten Teil des x86-Marktkuchens für sich abschneiden können. Intel kommt unter Druck - wurde aber auch höchste Zeit. (as) (as)