AMD Fusion: Stromspar-Feinheiten im 32-nm-Chip

Vom Llano, dem ersten CPU-GPU-Kombiprozessor mit Fusion-Architektur, zeigt AMD vorerst nur den CPU-Teil.

In Pocket speichern vorlesen Druckansicht 121 Kommentare lesen
Lesezeit: 4 Min.
Von
  • Erich Bonnert

AMD Llano mit vier Kernen, GPU und Speicher-Controller

(Bild: AMD)

Vom Llano, dem ersten CPU-GPU-Kombiprozessor mit Fusion-Architektur, zeigt AMD vorerst nur den CPU-Teil. Der 2011 erwartete Llano ist im AMD-Jargon eine Accelerated Processor Unit (APU), die vier x64-CPU-Kerne und einen Grafikprozessor (GPU) auf einem einzigen Silizium-Die vereint. Die Architektur der CPU-Kerne wurde von den bisherigen Serienprodukten übernommen – es handelt sich also um eine Art K10-Kern –, jedoch um wichtige Energiesparfunktionen erweitert. Die schon seit 2007 angekündigten Bulldozer- und Bobcat-Kerne kommen in anderen für 2011 geplanten AMD-Prozessoren zum Einsatz, etwa in Zambezi und Ontario.

Laut der im vergangenen November veröffentlichen Roadmap zielt Llano auf Notebooks und Desktop-PCs der "Mainstream"-Produktklassen. Jeder Llano-Kern soll zwischen 2,5 und 25 Watt Leistung aufnehmen. Über die Architektur des Grafikprozessors will man zum jetzigen Zeitpunkt noch nichts sagen, er soll aber zu DirectX 11 kompatibel sein. Intels aktuelle "HD-Grafik " im Core i3/i5/i7 unterstützt DirectX 10; 2011 will aber auch Intel mit der 32-nm-Prozessorgeneration Sandy Bridge Kombiprozessoren mit CPU-Kernen, GPU und Speicher-Controller auf einem Die verkaufen.

Der komplette Llano-Chip – soviel hatte AMD bereits im Vorfeld der ISSCC verraten – umfasst über eine Milliarde Transistoren. AMD wird ihn mit 32-Nanometer-Technik auf Silicon-on-Insulator-(SOI-)Wafern bei Globalfoundries fertigen lassen, wobei nun auch wie bei IBM und Intel ein High-K Metal-Gate-Verfahren (HKMG) zum Einsatz kommt.

Die eigentlichen CPU-Kerne belegen nur einen Bruchteil der Siliziumfläche, denn ihre jeweils 35 Millionen Transistoren passen auf 9,69 Quadratmillimeter – für vier Kerne ergibt das 140 Millionen Transistoren auf knapp 39 Quadratmillimetern. Allerdings kommen zu den eigentlichen Kern-Transistoren noch jeweils die L2-Cache-Blöcke hinzu, die aus je 1 MByte SRAM bestehen; sofern – wie üblich – 6T-SRAM-Zellen mit ECC-Fehlerschutz zum Einsatz kommen, sind dafür jeweils rund 9,4 Millionen Transistoren nötig, bei vier Kernen also weitere 37,8 Millionen Transistoren.

AMD peilt mit Llano Takfrequenzen von über 3 GHz an, die Versorgungsspannung soll zwischen 0,8 und 1,3 Volt betragen. Mit Hilfe von Power-Gating-Transistoren lässt sich jeder der vier Kerne separat von der Energieversorgung trennen, um Leckströme zu unterbinden. Ein Power-Gate-Ring umgibt Core und dazugehörigen L2-Cache. Dabei nutzen die AMD-Entwickler spezifische Vorteile der SOI-Technik: Sie können die Prozessorkerne masseseitig mit kompakteren N-FETs abschalten und verweisen darauf, dass "andere Firmen", die herkömmliche (aber billigere) "Bulk-Silicon"-Wafer einsetzen, P-FETs verwenden müssen – gemeint ist selbstverständlich Intel. Ein Turbo-Verfahren wie in Intels aktuellen Prozessoren, bei dem aktive Kerne höhere Taktfrequenzen erreichen können, ist aber nicht vorgesehen.

Das Taktverteilnetz (Clock-Grid) von Llano wurde neu konstruiert und layoutet. Das Clock-Grid allein beansprucht laut AMD oft bis zu 30 Prozent des gesamten Energiebudgets. Mit 50 Prozent weniger Taktpuffern und mehrstufigem Clock-Gating drückt Llano den Verbrauchsanteil des Clock-Grids auf 8 Prozent. Die meisten Hochleistungsprozessoren überwachen die Betriebstemperatur durch ein Netz von Wärmesensoren und regeln bei Erhitzung Takt und Spannung ab. Je nach Umgebungstemperatur können diese analogen Methoden aber Testprofile verfälschen und potenziell den Chip abbremsen, bevor er ins Schwitzen gerät, argwöhnt man bei AMD. Der Llano hingegen überwacht schweißtreibende Aktivitäten "digital", nämlich anhand von Signalen, die statistisch besonders häufig zu erhöhtem Energieverbrauch führen. Über 90 Signale von verschiedenen Bereichen des Chips werden dabei ausgewertet, unter anderem die Zahl von Integer-Operationen oder Verzweigungsvorhersagefehler (Branch Prediction). (ciw)