Prozessorgeflüster

AMD veröffentlicht Feinheiten zum Bulldozer-Prozessor, Intel kündigt an, AVX auch für Bulldozer zu unterstützen und Microsoft zeigt Windows 8 – nicht mit Oak Trail, sondern mit ARM.

23.04.2011, 00:00 Uhr

Lesezeit: 5 Min.

c't Magazin

Von

Andreas Stiller

Während allüberall in den Benchmark-Abteilungen der Systemhäuser die Prototypen des AMD-Bulldozer-Prozessors – auch Familie 15h genannt – im B0-Step ackern, hat AMD den „Software Optimization Guide for AMD Family 15h Processors“ herausgebracht, gefüllt mit zahlreichen neuen Informationen über dessen Innenleben und Performance. So findet man darin umfangreiche Tabellen mit den Ausführungszeiten (Latenzen) der einzelnen Befehle. Die mindestens ebenso wichtigen Durchsatzzeiten (Throughput), die in früheren Optimierungsratgebern selbstverständlich waren, hält AMD aber noch unter Verschluss – es ist bei dem Hybrid-Design des Bulldozer auch schwierig, wie AMD diese spezifizieren soll, ob nun pro Modul oder pro Kern oder irgendwie dazwischen.

Der Integer-Kern des Bulldozer-Prozessors besitzt nur noch zwei statt drei ALUs (EX0, EX1), dafür leicht erweiterte AGLUs (Address Generation Logical Units).

Außerdem würde bei den Durchsatzangaben klarer auffallen, dass jeder Integer-Kern beim Bulldozer über eine Pipeline weniger verfügt als beim Vorgänger K10. Zwar malt AMD mutig sogar vier Pipelines ins Blockschaltbild hinein, da der Scheduler jetzt die beiden ALUs (EX0 und EX1) und die beiden Adressgenerierungseinheiten (AG0 und AG1) getrennt bedienen kann, während die Einheiten vorher gemeinsam durch zusammengeklebte Mikrooperationen bedient wurden, doch das kann man im Vergleich zu den drei leistungsfähigen ALUs des K10 oder des Konkurrenten Sandy Bridge nicht wirklich ernst nehmen. Die beiden AGUs können nämlich lediglich in einem ganz bescheidenen Maße mitrechnen – offenbar beschränkt auf die beiden Befehle CALL und LEA .

Die Dokumentation erwähnt zudem einen Integer-Divider an EX0. Aber anders als beim Llano-Prozessor ist seine Wirkung auf die Ausführungszeiten nicht zu sehen, denn die bleiben ein, zwei Takte hinter dem K10 zurück.

Okay, etliche Latenzwerte waren schon vorab bekannt, überwiegend aus den Quelldateien des x86-open64-Compilers. So wusste man schon, was auf einen zukommt, unter anderem, dass die Lesezugriffe des Integer-Kerns auf den nur noch 16 KByte großen L1-Daten-Cache um einen Takt auf vier Takte Latenzzeit – wie bei Sandy Bridge – verlängert wurden. Aber auch bei vielen Rechenbefehlen, ob Addition, Multiplikation, Division und so weiter, braucht der Bulldozer meist den einen oder anderen Takt mehr als sein Vorgänger und als Sandy Bridge. Das gilt weitgehend auch für die neuen AVX-Instruktionen, allein die AES-Krypto-Befehle sind beim Bulldozer etwas fixer.

Da müssen Takt und Turbo Core schon um einiges zulegen, um das wieder auszugleichen. In der viel diskutierten IPC-Frage jedenfalls – Instruktionen pro Takt – wird Bulldozer trotz einiger Architekturverbesserungen wohl kaum mit seinem Vorgänger mithalten können, zumal die Kerne sich ja auch zu zweit das Frontend mit den Decodern und die FPU teilen müssen.

FMAC in allen Variationen

Bei den sogenannte Fused-Multiply-Add-Befehlen jedoch ist AMD derzeit noch konkurrenzlos. Hier hat man besonders kräftig gleich in dreifacher Packung zugeschlagen: gemäß der alten SSE5-Spezifikation von 2007 (nur 128bittig), gemäß der ersten AVX-Spezifikation mit vier Operanden und gemäß der jetzt von Intel unterstützten aktuellen AVX-Version mit drei Operanden. Bis zu vierfache Performance gegenüber dem alten Opteron soll laut AMD zum Beispiel bei der Matrixmultiplikation drin sein.

Dafür muss man zunächst auf AMDs x86-open64-Compiler zurückgreifen. Intels Compiler-Gruppe jedoch – das betonte der „Chef-Evangelist“ für Softwareprodukte, James Reinders, auf der hauseigenen Software-Konferenz ISTEP in Dubrovnik – will alles dafür tun, dass die Compiler auch für Nicht-Intel-Prozessoren Spitzenperformance bieten.

Auch das noch

Erst neulich gabs die Neuauflage des C64, nun macht der AmigaOne 1000 von sich reden, und zwar interessanterweise mit dem PowerPC-Doppelkern PWRficient PA6T-1682M von P. A. Semi – jetzt Apple. Der britische Rüstungskonzern Varisys bot ein Modul mit dem Prozessor für irgendwelche Waffensysteme an und hat offenbar noch zahlreiche Restbestände übrig.

Sobald die Spezifikationen veröffentlicht und Testsysteme verfügbar sind, will Intel AVX für Bulldozer einpflegen, wobei sich die Intel-Compiler vermutlich auf die kompatiblen Befehle beschränken werden. Ob überhaupt schon Fused-Multiply-Add-Befehle dabei sein werden, ließ Reinders offen, schließlich wird man diese Funktionalität bei Intel erst Ende 2012 mit dem Haswell-Prozessor einführen, eineinhalb Jahre nach AMD.

Unter Linux hat Intel schon vor ein paar Monaten SPEC-Ergebnisse für den Opteron 6174 veröffentlicht, die in etwa gleichauf mit dem AMD-Compiler liegen. Mit den neuen Compiler-Versionen 12.0 sind laut Reinders auch unter Windows die Intel-Compiler klar performanter als der beste verfügbare Compiler-Mix, als da sind Microsoft Visual Studio 2010 und PGI 10.6. Lag der ältere 11.1-Compiler bei SPECint_base2006 noch mit 7 Prozent knapp hinter MSVC und PGI zurück, so zog Version 12.0 mit 10 Prozent Vorsprung vorbei. Noch prägnanter sieht es bei dem Gleitkomma-Benchmark SPECfp_base2006 aus: Version 11.1 hängt mit 24 Prozent und Version 12.0 gar mit 42 Prozent die anderen Windows-Compiler klar ab.

Erste Präsentation von Windows 8 auf ARM, Family 7

(Bild: Microsoft)

Parallel zur ISTEP fand in Peking das IDF statt, wo recht unspektakulär der Windows-taugliche Tablet-Prozessor Oak Trail vom Stapel lief, mit nur wenigen Designs und offenbar langsamer als der zwei Jahre alte Atom Z530. Nebenbei stellte Intel bereits den Nachfolger „Cloverview“ in 32-nm-Technik vor, der irgendwann im nächsten Jahr vornehmlich gedacht für Windows 8 herauskommen soll. Ganz zufällig präsentierte Microsoft am gleichen Tag auf der Mix11 Windows 8 – aber nicht etwa mit Oak Trail, sondern mit einem 1-GHz-ARM-Prozessor. (as)