Prozessorgeflüster

AMD verabschiedet sich von alten Zöpfen wie 3Dnow! sowie dem Namen ATI und stellt die kommenden Hot Chips auf der gleichnamigen Konferenz etwas genauer vor.

In Pocket speichern vorlesen Druckansicht 3 Kommentare lesen
Lesezeit: 6 Min.
Von
  • Andreas Stiller

Bulldozer, Bobcat und Llano – das sind drei recht unterschiedliche Prozessorarchitekturen, die AMD als Innereien für die Chips der nächsten Jahre vorgesehen hat. Auf zwei davon haben AMD-Entwickler jetzt auf der Hot-Chips-Konferenz an der Stanford University in Palo Alto ein etwas detaillierteres Licht geworfen. Der designierte Atom-Konkurrent Bobcat besitzt wie jener eine „von Grund auf“ neu designte Architektur – obwohl sie mit ihrer zweifachen Skalarität, den Integer- und FPU-Pipelines, den beiden 32 KByte großen L1-Caches und den 512 KByte L2 doch sehr an einen guten alten Bekannten erinnert, an den recht erfolgreichen K6-2 – jetzt aufgerüstet mit 64 Bit, C6-Schlafzustand, SSE1, 2, 3 und SSSE3 sowie einen nicht weiter spezifizierten „High-Performance-Bus“. 3Dnow!, die mit dem K6 eingeführte SIMD-Erweiterung, könnte er wohl auch noch bieten, muss er aber nicht, denn AMD hat verlauten lassen, sich von dieser völlig ins Abseits geratenen Befehlssatzerweiterung zu trennen. Schade, hatte mir doch AMD extra einen 3Dnow!-Befehl fürs Apfelmännchen gewidmet. Damals hatte ich nämlich beim „Mandelbrötchen backen“ geklagt, dass ein Swap-Befehl fehlt – und schwups baute ihn AMD daraufhin ins nächste Stepping ein.

Bobcat wurde jetzt vor allem für den Einsatz in Netbooks optimiert. Stolz betont AMD, dass es sich um eine Out-of-Order-Architektur (OoO) handelt – so wie beim K6 oder den Intel-Core- und AMD-K10-Prozessoren auch. Die vergleichsweise komplexe OoO-Architektur kann Befehle geschickt umsortieren, sodass sich viele Wartezeiten überbrücken lassen. Atom hat demgegenüber nur eine einfache In-Order-Architektur, dafür aber Hyper-Threading, welches ebenfalls Wartezeiten meist mit sinnvoller Arbeit für den anderen Thread überbrücken kann.

Bulldozer: Die Integereinheiten samt kleinem L1-Datencache sind zweimal, die FPU mit zwei 128-bittigen FMAC- und MMX-Einheiten nur einmal im Modul vorhanden. Das Frontend und der L2-Cache werden gemeinsam genutzt.

Die OoO-Technik arbeitet üblicherweise viel mit Spekulationen, für die oft zusätzliche Energie benötigt wird. Das muss aber wohl nicht so sein; IBM etwa ist nach einem kurzen In-Order-Intermezzo beim Power6 und Z9 jetzt wieder zu OoO bei Power7 und Z96 zurückgekehrt. Und letztere weisen bei niedrigerem Takt eine weit höhere Energieeffizienz auf.

Ein Bobcat-Kern allein soll in der Lage sein, mit weniger als einem Watt Energieaufnahme zu arbeiten. Verbrauchsangaben zum ersten geplanten Bobcat-Prozessor Ontario (zwei Kerne plus DirectX11-Grafikprozessor plus Speicher-Controller zwischen Grafikkern und CPUs) liegen derzeit noch nicht vor. Fudzilla.com hat was von 18 Watt läuten hören, spätere Low-Energy-Ausführungen sollen mit nur 9 Watt auskommen.

Auch der andere Prozessor der geplanten „Fusion“-Serie mit integrierten Grafikprozessoren greift für die CPU-Kerne auf eine bewährte, wenn auch erheblich weiterentwickelte Altarchitektur zurück, nämlich auf den K8-Kern. Der ist um einiges kleiner als der aktuelle K10, unter anderem dank schmalerer interner Datenbusse. Doch zu Llano hat AMD noch keine weiteren Details veröffentlicht. Möglicherweise stiehlt jemand anders noch AMD die Show mit dem ersten echten CPU/GPU-Combo-Chip – nein, nicht Intel, sondern Microsoft. Gemeinsam mit Herstellungspartner IBM hat Microsoft auf besagter Konferenz nämlich den neuen Xbox-360-Prozessor für das 250-GByte-System vorgestellt, ein SoC mit integrierter GPU, das nicht nur schneller als der Vorgänger ist, sondern auch 60 Prozent weniger Energie fressen soll. Immerhin stammt die eingebaute GPU ja auch von ATI – äh nein, von AMD, denn den Namen ATI will AMD offenbar in Zukunft nicht mehr verwenden.

Die zunächst für Server gedachte Bulldozer-Architektur ist – wie in dieser Kolumne ja schon früh verpetzt – eine Art Zwitter zwischen Dual-Core und Hyper-Threading. Das Modul, wie AMD es nennt, beherbergt zwei getrennte Integereinheiten, mit eigenen 16 KByte kleinen L1-Datencaches sowie eine gemeinsame Gleitkommaeinheit aus zwei MMX- und zwei 128-Bit-FPU-Einheiten, die für Intels kommende 256-bittige SIMD-Erweiterung AVX zusammengeschaltet werden können. All das hat AMD aber schon auf einem Analysten-Tag im November 2009 bekanntgegeben.

Erstmals wurden nun jedoch offiziell AVX sowie SSE4.1 und SSE4.2 für Bulldozer bestätigt; bezüglich der Kryptoerweiterung AES, so hieß es in der Vorabtelefonkonferenz, sei AMD noch mit Intel über Implementierungsdetails am Verhandeln. Der bei Intels nächstem Prozessor Sandy Bridge in der ersten Version noch fehlende Fused-Multiply-Add-Befehl ist beim Bulldozer schon dabei – aber offenbar in eigener Ausführung (AMD 4 Operand Form). Diese ist wohl von der einst geplanten SSE5-Erweiterung übrig geblieben – ob Bulldozer auch die restlichen SSE5-Befehle unterstützen wird, konnte uns AMD noch nicht sagen

Das Frontend der Bulldozer-Pipeline, das für das Zwischenspeichern (im 64 KByte L1-ICache), Holen und Dekodieren der Befehle zuständig ist, sowie der für Instruktionen und Daten genutzte L2-Cache (2 MByte, 16-Wege), sind ebenfalls für das ganze Modul. Diese Cachegrößen beziehen sich auf die erste Implementierung der Architektur in 32-nm-SOI-Technik, die unter dem Codenamen Orochi firmiert.

Das Frontend wirkt etwas schwach dimensioniert, bietet etwa nur vier x86-Decoder (Fast Path) für das gesamte Modul – so viele hat Nehalem für einen Kern alleine, wenn auch hier die Decoder gleich zwei logische Kerne zu füttern haben. Der aktuelle AMD K10 weist pro Kern immerhin drei schnelle Decoder auf. Mit seinen 8 Modulen – also je nach Sichtweise 8 bis16 Kernen – soll der Bulldozer-Serverchip Interlagos rund 70 Prozent mehr Integer-Performance (SPECint) als der 12-Kerner Magny-Cours erzielen, das sieht demnach nicht wirklich nach einem „verhungernden“ Frontend aus. Neben dem dicken Interlagos mit bis zu 8 MByte L3-Cache für alle Module auf dem Chip will AMD halb so große Chips für Server (Valencia) und High-End-Desktop-PCs (Zambezi) herausbringen.

Für Gleitkommaberechnungen hat Interlagos im Vergleich zu Magny-Cours zwar ein Drittel weniger Rechenkerne zu bieten, dennoch soll bei ihm dank AVX und FMA und besserer Speicheranbindung die SPECfp-Rechenleistung um ein Drittel höher liegen. Dabei sind die FPUs noch nicht einmal an dem kleinen L1-Cache angeschlossen. Einen L1-Bypass für die FPUs, den hatte Intels wenig erfolgreicher Itanium auch – hoffentlich ist das kein schlechtes Omen … (as)