ISSCC: Weitere Details zum Bulldozer von AMD
Auf der Entwicklerkonferenz ISSCC hat AMD neue Informationen zur kommenden Bulldozer-Prozessorgeneration präsentiert.
Ungefähr ab Jahresmitte 2011 will AMD die ersten Server- und High-End-PC-Prozessoren mit "Bulldozer"-Mikroarchitektur verkaufen. Die Server-Chips werden auf den schon heute verkauften G34-Mainboards für Opterons der Baureihe 6100 laufen (Interlagos: 8, 12 oder 16 Kerne) sowie auf C32-Serverboards für Opteron 4100 (Valencia: 6 oder 8 Kerne), der Zambezi mit vier bis acht Bulldozer-Kernen passt wohl auf Mainboards mit der Fassung AM3+ und neuen Chipsätzen wie dem 990FX (Southbridge: SB950) .
Die Bulldozer-Prozessoren haben einen modularen Aufbau. Jedes Modul, das hat AMD bereits auf der Hot Chips 2010 erläutert, besteht aus zwei "verschlankten" Integer-Kernen mit jeweils separaten L1-Caches, einer Gleitkomma- beziehungsweise SSE-Einheit mit Load-Buffer, einem von allen drei Einheiten gemeinsam genutzten L2-Cache sowie gemeinsam genutzten Fetch-, Decode- und Vorhersageeinheiten. Diese für x86- beziehungsweise x64-Prozessoren ungewöhnliche Mikroarchitektur bezeichnet AMD auch als Chip Multi-Threading (CMT), im Unterschied zu Chip Multi-Processing (CMP), also mehreren vollständigen Kernen und Hyper-Threading, Intels Implementierung von Simultaneous Multi-Threading (SMT).
Wesentliches Ziel der Bulldozer-Entwickler war es offenbar, bei annähernd gleicher Siliziumfläche, Leistungsaufnahme (TDP) und Taktfrequenz – AMD verspricht bis zu 3,5 GHz, die aktuelle Quad-Cores wie der Phenom II X4 975 allerdings bereits überschreiten – mehr Threads parallel zu verarbeiten. Die Bulldozer-Prozessoren produziert die ehemalige AMD-Fertigungssparte Globalfoundries mit 32-Nanometer-Strukturen und 11 Metalllagen auf Silicon-on-Insulator-(SOI-)Wafern. Ein Bulldozer-Modul – also zwei Kerne – soll inklusive L2-Cache rund 213 Millionen Transistoren umfassen und etwa 31 Quadratmillimeter Siliziumfläche belegen, erläuterte AMD nun auf der IEEE International Solid-State Circuits Conference (ISSCC). Außer den Dual-Core-Modulen enthalten komplette Prozessoren aber auch jeweils noch L3-Cache, Speicher-Controller sowie einen HyperTransport-3.1-Controller. Damit dürfte ein Octo-Core-Bulldozer die Milliarden-Transistor-Grenze deutlich überschreiten.
Bereits auf der Hot Chips hatte AMD erklärt, die Gleitkomma-Einheit unterstützte SSSE3, SSE4.1, SSE4.2, AVX, AES-Befehle und bestimmte Multiply-Add/Accumulate-Instruktionen. Weitere Details lieferte AMD nun zu den Ganzzahl-Ausführungseinheiten (Integer Execution Units/EX) und ihren Out-of-Order-Schedulern. Jede EX – also jeder Thread – verarbeitet demnach bis zu vier 64-Bit-Befehle gleichzeitig. Pro Integer-Core stehen jeweils 16 KByte L1-Cache für Daten bereit (L1D), für Befehle (L1I) hingegen 64 KByte, die sich aber die beiden Cores teilen.
Schwer einzuordnen ist die Aussage von AMD, die verschlankten Integer-Ausführungseinheiten würden "90 Prozent der Performance" bisheriger Einheiten bei geringerem Flächen- und Energiebedarf erreichen, [Update: wie die EETimes unter Berufung auf AMD-Entwickler Michael Golden meldet. Diese Aussage deckt sich mit jener aus der Hot-Chips-Präsentation von AMD-Fellow Mike Butler, wonach ein Bulldozer-Modul mit zwei Integer-Einheiten "im Mittel schätzungsweise 80 Prozent der Performance" zweier vollständiger Kerne (CMP) liefert, aber bei "viel geringerem" Bedarf an Siliziumfläche und elektrischer Leistung.]
Wenn AMD jede Integer-Einheit als Kern zählt, dann würde das bedeuten, dass Bulldozer-Prozessoren bei gleicher Kern-Anzahl und Taktfrequenz etwas weniger Rechenleistung liefern als etwa die bisherigen K10-Opterons. Durch die höhere Zahl an Kernen und die gleichzeitig höhere Taktfrequenz – die aktuellen Zwölfkerner erreichen höchstens 2,5 GHz – will AMD aber den CPU-Durchsatz um rund 50 Prozent steigern. Wie der AMD-Manager John Fruehe in einem Blog-Beitrag erläutert hat, werden sich die Bulldozer-Prozessoren zudem per Turbo Core automatisch übertakten, wenn sie nicht voll ausgelastet sind. Ohne Last wiederum schalten sie sich weitgehend ab – auch AMD hat nun den Schlafmodus C6 implementiert. (ciw)