ProzessorgeflĂĽster
Während AMD auf dem hauseigenen Entwicklertreffen mit zahlreichen Neuerungen im Zusammenspiel von CPUs und GPUs glänzt, stellt Intel ein paar interessante Features der übernächsten Prozessorgeneration Haswell vor: AVX2.
- Andreas Stiller
Nein, einen neuen Firmenchef (CEO), wie hier und dort erwartet, hatte AMD zum Start des Fusion Developer Summit (AFDS) in Bellevue bei Seattle nicht zu bieten, ließ dafür aber die A-Series offiziell vom Stapel, die zuvor unter dem Codenamen Llano bekannt war (S. 122, c't 14/11). Als kleine Unhöflichkeit gegenüber den neuen Chips (mit altem Phenom-Kern) präsentierte Vice President Rick Bergman bereits einen Laptop mit einem Prototyp des Nachfolgers namens Trinity, der im nächsten Jahr mit Bulldozer-Architektur parallel zum DirectX-11-Grafikkern aufwarten und 50 Prozent schneller sein soll.
Software-Architekt Phil Rogers nutzte seine Eröffnungsrede nur wenig für die sonst üblichen schönen Worte, sondern ging gleich in medias res der Fusion System Architecture (FSA) und des AMD Accelerated Parallel Processing SDK (APP), welches früher mal unter dem Namen FireStream SDK lief. Rogers erläuterte das hybride Computing auch anhand von Code-Beispielen – es ist halt eine echte Entwicklerkonferenz. Unified Memory (CPU und GPU in einem Adressraum), parallele Kernels, User Mode Scheduling und viele derartiger Dinge mehr kamen als jetzige oder zukünftige Bestandteile zur Sprache – spannende Sachen, die man zuvor bei der Konkurrenz aber auch schon gehört hatte.
Doch AMD kann dank Fusion das hybride Konzept direkt und schnell in Hardware umsetzen. Nvidia hingegen hat bei x86 mangels eigener CPU bremsende PCIe-Busse oder Links dazwischen und bei Tegra fehlen der Grafikeinheit bis auf Weiteres noch die Unified Shader. Auch beim neuen Vierkerner Tegra 3 (Kal-El), den Microsoft als Plattform für Windows 8 nutzen durfte (Seite 18, c't 14/2011), muss man auf dieses Feature noch verzichten. Für Windows 8 sind die Unified Shader nicht unbedingt nötig, es gibt aber gewisse Mindestanforderungen an den ARM-Instruktionssatz, an die Displaygröße und so weiter. Wegen des stark zergliederten ARM-Marktes wird Microsoft nicht umhinkommen, mehrere binär inkompatible „WARM“-Versionen zu pflegen, für Nvidia, Qualcomm, TI … Das hatte Intels Software-Chefin Rene James Mitte Mai auf einem Investorentreffen als Nachteil gebrandmarkt und auch angemerkt, dass ältere Applikationen nicht darauf laufen. Das veranlasste dann Microsoft umgehend zu einem klaren Dementi – na ja, eher zu einem Wischiwaschi-Teildementi, es sei derzeit noch alles im Technologie-Demonstrationsstadium, man könne also noch nichts Finales dazu sagen. Da rumort es offenbar ganz schön zwischen den beiden Firmen.
Der Ende des Jahres oder Anfang 2012 erwartete Nachfolger vom Sandy Bridge namens Ivy Bridge wird, wie es in Intels „Tick-Stufe“ üblich ist, nur minimale Änderungen in der Mikroarchitektur mitbringen, dafür aber mit verkleinerten Strukturen (22 nm) in der Herstellung aufwarten samt den neuen dreidimensionalen Tri-Gate-Transistoren. Wie Fertigungschef Mark Bohr bestätigte, wird der ganze Prozessor mit diesen Tri-Gate-Transistoren arbeiten und nicht, wie hier mal irrtümlich vermutet, nur bei den Caches. Der Instruktionssatz bleibt indes weitgehend unverändert, mit kleineren Performance-Verbesserungen bei den transzendenten und den Krypto-Befehlen sowie der im letzten Geflüster beschriebenen Sicherheitserweiterung SMEP. Er bietet aber noch keine Fused-Multiply-Add-Befehle (FMA), wie sie im Verlauf der Zeit in verschiedenen Versionen für AVX spezifiziert worden sind und wie sie der Konkurrenz-Chip von AMD, Bulldozer, in unterschiedlichsten Ausprägungen mitbringen wird.
AVX2-Tock
Aber Anfang 2013 soll dann der „Tock“ zum Haswell-Prozessor folgen, der wieder von der Crew in Oregon rund um Ronak Singhal designt wird, die womöglich weitere Techniken aus der untergegangenen Netburst-Architektur wiederbeleben könnte. Man hört zudem von einem komplett neuen Cache-Design, einer vergleichsweise kurzen Pipeline von 14 Stufen, neuen Energiesparmechanismen und einer wahrscheinlich optionalen Vektoreinheit, die mit 512 Bit Breite arbeitet und LNI spricht: Larrabee New Instructions.
Sicher ist erst einmal aber nur, dass Haswell das bisherige AVX ganz erheblich zum AVX2 ausweitet, und zwar umfangreicher, als bisher erwartet. Hier findet man nun endlich die bislang vermissten FMA-Befehle, wenn auch nur in der Sparausführung mit drei Operanden. Damit die Programmierer jetzt schon mal loslegen können, hat Intel die Programming Reference für AVX entsprechend erweitert und wird sicherlich bald mit einem AVX2-Emulator nachlegen. Bislang beschränkte sich AVX für 256 Bit nur auf Gleitkomma, mit AVX2 werden jedoch nun so gut wie alle 128-Bit-SIMD-Operationen auf 256 Bit erweitert, inklusive der Integer-Befehle. Hinzu kommen leistungsfähige „cross lane“ -Permutationsbefehle: In einem 256-Bit-Register steht hierbei eine Maske, die festlegt, wie die Bits aus einem zweiten Register in das Ziel-Register hineinverwürfelt werden sollen. Wohl noch bedeutender dürften aber die neuen „Gather“-Befehle sein, die den Speicherzugriff auf nicht aufeinanderfolgende Daten optimieren. Das dürfte etwa bei Matrixberechnungen zusammen mit FMA neue Höchstleistungen etwa im Linpack-Benchmark ermöglichen.
Weiterhin gibts auch einige interessante Erweiterungen des normalen Befehlssatzes (VEX-encoded GPR Instructions). Inwieweit Haswell von Anfang an all diese Befehle bieten wird, ist noch unklar. Wie ĂĽblich gibt es zahlreiche Bits im CPUID, die ĂĽber Existenz/Nichtexistenz von spezifischen Befehlen Auskunft geben. Die Haswell-Nachfolger sind zumindest schon mal benannt: Broadwell mit der Verkleinerung (Shrink) auf 14 nm (P1272), dann Skylake mit einer neuen Mikroarchitektur, vermutlich wieder aus Haifa, der 2015 dann verkleinert auf 11-nm-Strukturen (P1274) als Skymont ins Rennen gehen soll.
Eigentlich wollte Intel gemäß alter Roadmaps schon für den 32-nm-Prozess auf EUV-Lithografie umschwenken, doch nun sieht’s so aus, als ob die Firma mit irgendwelchen Zaubertricks sogar bis hinab zu 11 nm noch mit langwelligem 193-nm-Laserlicht belichten will – das ist so, als wolle man mit Vorschlaghammer und Maurermeißel einen feinen Kupferstich ziselieren. (as)