Mainstream-Offensive

Bei AMDs Mobilprozessoren der A-Serie teilt sich eine Vierkern-CPU das Silizium-Die mit einer flotten DirectX-11-Grafikeinheit. Können Einzelteile und Gesamtwerk überzeugen?

In Pocket speichern vorlesen Druckansicht
Lesezeit: 6 Min.
Von

Seit dem Kauf von ATI anno 2006 spricht AMD davon, Prozessor und Grafikchip auf einem Silizium-Stück zu vereinen, doch es dauerte etliche Jahre, bis solche Produkte tatsächlich fertig und erhältlich waren: Erst Ende 2010 sind die Bobcat-Prozessoren der C- (C-30, C-50) und E-Serien (E-240, E-350) erschienen, die im Netbook-Markt gegen Intels Atom antreten [1] .

Nun folgt die wesentlich leistungsfähigere A-Serie, die unter dem Codenamen Llano entwickelt wurde; sie ist für normalgroße Notebooks gedacht. Die Namen Athlon, Phenom und Turion haben ausgedient; stattdessen gibt es nun die arg technischen Bezeichnungen A8, A6 und A4 sowie am unteren Ende E2. Das aufgefächerte Leistungsspektrum ist breit: Im A8 arbeiten vier CPU-Kerne und eine zu DirectX 11 kompatible Grafikeinheit mit 400 Shader-Einheiten, im E2 hingegen lediglich zwei CPU-Cores und weniger als die Hälfte an Shadern (siehe Tabelle auf S. 125 in c't 14/11 ).

Die beiden Hauptkomponenten von Llano – CPU und GPU – sind jeweils eng mit bekannten Produkten verwandt. Die CPU-Kerne ähneln stark den bisherigen Phenom-II-Kernen [2] . Von den mit der Vorgänger-Generation eingeführten Triple-Cores will AMD nichts mehr wissen: Alle A-Neulinge haben zwei oder vier Kerne, wobei der L2-Cache durchgängig auf 1 MByte pro Kern gewachsen ist – so viel Cache hatten bisher nur AMDs (Mobil-)Doppelkerne. Einen gemeinsamen L3-Cache, wie ihn Intel seinen Core-i-Prozessoren mit auf den Weg gibt, findet man bei AMD hingegen nicht; das war auch schon bei den mobilen Phenoms so.

Falschfarbenaufnahme des Llano-Dies mit Funktionsblöcken: Links sind überwiegend CPU-, rechts GPU-Einheiten angesiedelt.

Größte Verbesserung auf der CPU-Seite ist Turbo Core, das Gegenstück zu Intels Turbo Boost: Wenn nur ein Rechenkern ausgelastet ist, so darf der Prozessor mit einem höheren Takt laufen, als wenn alle vier unter Dampf stehen. Von Intels kleinen 100-MHz-Stufen ist AMD allerdings weit entfernt: Es gibt entweder die definierte Taktfrequenz für alle Kerne oder die 400 bis 900 MHz höhere Turbo-Frequenz, aber keine Zwischenstufen. Die garantierten Basisfrequenzen sind deutlich niedriger als bei bisherigen Phenoms – weil in das Abwärme-Budget von 35 Watt oder 45 Watt ja auch noch die GPU passen muss.

Auch die Kontrolle ist simpler angelegt als bei Intel: Eine Steuereinheit misst die Stromaufnahme der aktiven Kerne und entscheidet anhand dieser Daten, welche Frequenz anliegen soll. Die Turbo-Frequenz ist CPU-intern als ein P-State über P0 – quasi P–1 – realisiert, das Betriebssystem bekommt ihn nicht zu Gesicht. Eine permanente thermische Überwachung des Turbo-Modus wie bei Intel findet nicht statt; einzig bei zu hoher Chiptemperatur greift eine Drosselung, die ein Durchbrennen verhindern soll. Turbo Core steigert zudem nur den Takt der CPU, nicht aber der GPU.

Der vierkernige A8-3500M, der seinen garantierten Takt von 1,5 GHz mittels Turbo Core auf 2,4 GHz steigern kann, erreicht mit 4974 Punkten im CPU-Benchmark Cinebench R10 das Niveau des Dreikerners Phenom II X3 N830 (2,1 GHz, 4807 Punkte). Andere Llanos standen uns für Vorab-Tests nicht zu Verfügung, doch selbst das Flaggschiff A8-3530MX (1,9 GHz, mit Turbo 2,6 GHz) dürfte sich nur irgendwo zwischen den unteren Sandy-Bridge-Modellen Core i3-2310M (6235 Punkte) und Core i5-2410M (8025 Punkte) einordnen. Beides sind übrigens lediglich Doppelkerne mit Hyper-Threading, wobei dem i3 noch Turbo Boost verwehrt bleibt. Die vier Kerne des Core i7-2720QM (2,2 GHz, Hyper-Threading, mit Turbo bis 3,3 GHz) schaffen satte 15 250 Punkte – und er ist noch nicht einmal Intels schnellster Sandy-Bridge-Vierkern für Notebooks.

Llanos GPU-Teil stammt von AMDs Redwood-Grafikchip, der als (Mobility) Radeon HD 5700/5600/5500 in Notebooks und Desktop-PCs zum Einsatz kam. Im A8 heißt die GPU Radeon HD 6620G; ihre 400 Shader verteilen sich auf 5 SIMD-Einheiten zu je 16 Recheneinheiten à 5 Kernen. Sie laufen mit 444 MHz und schaffen eine maximale theoretische Rechenleistung von 355 Milliarden Gleitkommaoperationen pro Sekunde (GFlops) – ein für eine integrierte Grafikeinheit imposanter Wert. Die Shader-Kerne beherrschen bitweise Operationen wie count, insert und extract, die bei GPGPU-Aufgaben wie Videobearbeitung und Kryptografie häufig vorkommen.

An jeder SIMD-Einheit hängt eine Gruppe von vier Textureinheiten, sodass insgesamt zwanzig Stück beim Tapezieren von Polygonflächen mithelfen. Sie sind auch für den anisotropen Filter (AF) zuständig, der die Details von im Hintergrund befindlichen Texturen hervorhebt [3] . Er arbeitet genauer als der Algorithmus, den die HD-3000-Einheit in Intels Core-i-2000-Prozessoren verwendet.

Von den für die Kantenglättung wichtigen Rasterendstufen (ROPs) gibt es acht. Bis zu 24-faches Multisampling-Antialiasing (MSAA) ist laut AMD theoretisch möglich, praktisch reicht die Leistung dafür allerdings längst nicht aus [4] . Realistisch ist zweifache Kantenglättung, in älteren Spielen vielleicht auch mal vierfache. Auch das schnellere Morphological Antialiasing (MLAA) wird unterstützt, welches etwa für Spiele wie GTA IV sinnvoll ist, die durch ihren speziellen Rendermodus kein herkömmliches MSAA unterstützen. Das Bild flimmert damit sichtbar weniger, wirkt allerdings auch unschärfer.

Die größte GPU-seitige Änderung ist das Speicher-Interface, denn während separate Redwood-Grafikchips üblicherweise über 128 Datenleitungen auf eigenen DDR3-Speicher zugreifen und die gesamte Speicherbandbreite von beispielsweise 28,8 GByte/s (Radeon HD 5570: 900 MHz) für sich haben, muss sich die Llano-GPU das Dual-Channel-Speicher-Interface mit den CPU-Kernen teilen – bei einem Gesamtdurchsatz von bestenfalls 25,6 GByte/s (DDR3-1600) oder 21,3 GByte/s (DDR3-1333). AMD gibt allerdings an, einige Optimierungen am Speicher-Controller vorgenommen zu haben, um Engpässe zu vermeiden. So sollen sich beispielsweise virtuelle Speicherbereiche mit Texturen von CPU- zu GPU-Speicher umklassifizieren lassen, sodass die Daten gar nicht erst umkopiert werden müssen (Zero Copy).

Den vollständigen Artikel finden Sie in c't 14/2011.

(mue)