GPU-Architektur: AMD will Nvidia das Fürchten lehren

AMD überrascht auf der Fusion-Konferenz im US-Bundesstaat Washington mit einer Vielzahl von Details zur kommenden Grafikchip-Generation.

In Pocket speichern vorlesen Druckansicht 160 Kommentare lesen
Lesezeit: 4 Min.

Tessellation-Berechnungen werden bei der kommenden GPU-Generation parallel ablaufen.

(Bild: AMD)

Jede Compute Unit enthält 4 SIMD-Einheiten mit je einer Vector-ALU.

(Bild: hardware.fr)

AMD hat auf dem Fusion Developer Summit mehr Details zur Architektur seiner zukünftigen Grafikchips herausgelassen. Demnach soll die bisherige VLIW4-Organisation, auf der etwa die Cayman-Grafikchips der HD-6900-Serie aufbauen, einem Ansatz weichen, der die GPUs leichter programmierbar macht. AMD geht damit einen ähnlichen Weg wie Nvidia, deren Fermi-Chips sehr gut für universelle Berechnungen (GPGPU) einsetzbar sind.

AMD schmeißt mit der zukünftigen Architektur zwar viele Altlasten über Board, kann aber dennoch vom aktuellen VLIW4-Ansatz profitieren, der klar als Zwischenstück zur neuen Generation dient. Das zu verstehen ist allerdings nicht leicht: Bei VLIW4-Grafikchips organisierte AMD die Shader-Rechenkerne (Shader-ALUs) in kleinen Rechengruppen zu je 4 Einheiten (VLIW4 Thread Processor), die jeweils eine Single-Precision-Berechnung (mit 2 Flops pro FMA) pro Takt ausführen konnten. Insgesamt 16 dieser Vierergruppen bildeten eine SIMD-Einheit.

Bei der neuen Architektur ist eine Shader-Recheneinheit (Vector ALU) so leistungfähig wie vier dieser Vierergruppen – also ein Thread-Processor – der alten Architektur. Jede SIMD-Einheit besitzt allerdings nur noch eine solche ALU, sodass bis zu 16-Single-Precison-Berechnungen pro Takt (FMA) pro SIMD möglich sind. Über 64 KByte Local Data Share können SIMDs untereinander Daten austauschen – oder ihn einfach als Zwischenspeicher für ihre Berechnungen nutzen. Vier SIMD-Einheiten stecken in einer sogenannten Compute Unit – der primären Recheneinheit. Sie kann weitgehend unabhängig von den anderen Einheiten agieren. Ein 64 bis 128 KByte großer L2-Cache pro Speicherkanal sorgt für Kohärenz zwischen den Recheneinheiten und der CPU.

Wie bisher lassen sich zwei Vector-ALUs und ihre 32-bittigen Register für Berechnungen mit doppelter Genauigkeit zusammenschalten, möglich scheint nun aber auch das Kombinieren vier 32-bittiger Register zu 128 Bit. Im Vergleich zu den in jetzigen Grafikchips verbauten Shader-ALUs besitzen sie einen erweiterten Befehlssatz für Media-, Integer- und Gleitkomma-Operationen wie min, max und cmpxchg. Außerdem beherrschen sie nun auch Rekursionen.

Eine aktuelle Radeon HD 6970 mit Cayman-Grafikchip (VLIW4) kann pro Sekunde theoretisch bis zu 2,7 Billionen Gleitkommaberechnungen (in einfacher Genauigkeit) durchführen. Eine Karte der kommenden Generation benötigt dafür mindestens 22 Compute Units, sofern man eine Grafikchip-Taktfrequenz von 1 GHz annimmt. Dank des 28 Nanometer-Fertigungsprozesses wären vielleicht sogar noch höhere Taktfrequenzen und eine größere Anzahl Compute Units denkbar. Ein High-End-Chip mit 32 Compute Units würde satte 4 Teraflops schaffen – fast soviel, wie die Dual-GPU-Grafikkarte Radeon HD 5970 leistet. Aussagen über die tatsächlich Grafik-Performance lassen sich auf dieser Grundlage allerdings nicht treffen.

Innerhalb einer Compute Unit sitzt noch eine Scalar Unit, die sich die 4 SIMDs teilen müssen, und die auch Steuerungs- und Kontrollaufgaben übernimmt. Die skalare Einheit hat 8 KByte Registerspeicher, jede SIMD kann sich davon ein Viertel allozieren. Sie entspricht hinsichtlich ihrer Befehls- und Leistungsvielfalt einem General-Purpose-Integerprozessor. Bis auf herkömmliche IO-Befehle kann eine Compute Unit durch sie nahezu völlig unabhängig arbeiten. Das vereinfacht den Einsatz vor allem bei universellen Berechnungen, wo es eine Vielzahl unterschiedlicher Aufgaben parallel abzuarbeiten gilt.

Einen weiteren Ruf der HPC-Gemeinde kommt AMD bei der neuen Architektur ebenfalls nach: Hauptspeicher und interne Speicher lassen sich nun per ECC absichern, wie es Nvidia bereits bei Fermi-Grafikchips anbietet. AMD wird diese Funktion wahrscheinlich nur bei den Profi-Grafikkarten aktivieren, da sie etwas Performance kostet und sich auch einen Teil des Gesamtspeichers abzwackt. Auch Virtual-Memory-Funktionen beherrschen die zukünftigen GPUs – Nvidias jetzige Fermi-Grafikchips müssen sich also warm anziehen.

Ob AMD tatsächlich noch in diesem Jahr erste Chips mit der neuen Architektur auf den Markt bringt, ist ungewiss – wahrscheinlicher ist, dass AMD zunächst die bestehenden VLIW4-Chips im 28-Nanometer-Verfahren auf den Markt bringt und später eine High-End-Grafikkarte mit der neuen Architektur präsentiert. Die nächste Grafikchip-Generation des Erzkonkurrenten Nvidia – Kepler – wird frühestens Ende des Jahres erwartet. (mfi)