Ampere-Architektur: Details zu Nvidias Gaming-Grafikkarten GeForce RTX 3000

Nvidia steigert die Spieleleistung durch eine Verdopplung der FP32-Rechenkerne pro Shader-Multiprozessor und einen schnelleren sowie größeren L1-Cache.

In Pocket speichern vorlesen Druckansicht 181 Kommentare lesen
Ampere-Architektur: Details zu Nvidias Gaming-Grafikkarten GeForce RTX 3000

(Bild: Nvidia)

Lesezeit: 5 Min.

Noch diesen Monat debütieren mit der GeForce RTX 3080 und GeForce RTX 3090 die ersten Gaming-Grafikkarten mit Ampere-Architektur. Vor dem Verkaufsstart hat Nvidia die grundlegenden Neuerungen ausgehend von Turing (RTX 2000) erläutert und erklärt, wie die hohe theoretische Rechenleistung von bis zu 36 Billionen 32-bit-gleitkommagenaue Rechenschritte pro Sekunde (FP32-TeraFlops) zustandekommt.

Selbst die GeForce RTX 3070 hat laut Datenblatt mehr FP32-Rechenkerne als das alte Topmodell GeForce RTX 2080 Ti: 5888 vs. 4352. Das liegt am Aufbau der Shader-Multiprozessoren (SMs), welche die Rechenkerne beheimaten. Seit Turing enthält ein SM jeweils vier Partitionen, unter anderem mit je einem FP32-Block für Gleitkommawerte und einem für Ganzzahl-Berechnungen mit INT32-Genauigkeit. Bei Ampere erweitert Nvidia den INT32-Block, sodass dieser bei Bedarf zusätzlich auch im FP32-Format rechnen kann. Für reine FP32-Berechnungen steht also doppelt soviel Rechenleistung pro SM und Megahertz zur Verfügung. Da in der Praxis oft ein Mix aus FP32- und INT32-Befehlen anliegt, variiert der Nutzen aus der zusätzlichen Gleitkommakapazität je nach Zusammensetzung des Instruktionsstromes.

Aufbau eines Ampere-Shader-Multiprozessors mit Hybrid-Shader-Kernen (FP32 + INT32) und optimiertem L1-Cache.

(Bild: Nvidia, via Computerbase )

Das Performance-Plus hängt folglich vom 3D-Spiel beziehungsweise der Anwendung ab. Da Nvidia das Frontend zur Fütterung der Shader-Kerne nicht mit verdoppelt, lässt sich schon jetzt sagen, dass die theoretische Rechenmehrleistung kaum eins zu eins bei den Bildraten in Spielen durchschlagen wird.

Um die GPU-Auslastung durch das lokale Vorhalten von Daten zu erhöhen, hat Nvidia den Level-1-Cache von 96 auf 128 KByte pro Shader-Multiprozessor vergrößert. Dieser überträgt Daten mit 219 GByte/s bei gleichem Takt nun doppelt so schnell. Den L2-Cache hingegen verkleinert der Chiphersteller auf die Rechenleistung normiert: Die GeForce RTX 3080 nutzt 5 MByte, die GeForce RTX 3070 dürfte mit 4 MByte bestückt sein. Die GeForce RTX 3090 setzt auf den gleichen GA102-Grafikchip wie die GeForce RTX 3080 und könnte - derselben Logik folgend - einen zusätzlichen Puffer von 1 MByte haben. Die TU102-GPU der GeForce RTX 2080 Ti verwendet 6 MByte.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externes Video (Kaltura Inc.) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Kaltura Inc.) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Der gerade im Vergleich zum Datacenter-Beschleuniger der Ampere-Generation, dem GA100, kleine L2-Cache kommt dem Flächenbedarf und damit der Produktionsausbeute zugute: Der größte Grafikchip für Spieler, der GA102, bringt 28 Milliarden Transistoren auf 628,4 mm² unter, der kleine Bruder GA104 etwa 17,4 Milliarden Transistoren auf 392,5 mm². Die Vorgänger-GPUs waren 754 mm² (TU102) beziehungsweise 545 mm² (TU104) groß, ließ Nvidia aber noch mit 12-Nanometer-Strukturen von TSMC fertigen. Die Gaming-Ampere-Chips laufen bei Samsung mit 8-nm-Technik vom Band.

Blockdiagramm der GA102-GPU: 7 Graphics Processor Cluster mit jeweils 12 Shader-Multiprozessoren ergeben 10.752 Shader-Kerne. 10.496 davon sind bei der GeForce RTX 3090 aktiv.

(Bild: Nvidia, via Computerbase)

TSMC fertigt in der Ampere-Generation bislang ausschließlich die GA100-GPU für Rechenzentren mit modernerer 7-nm-Technik. Der Grafikchip geht mit 54,2 Milliarden Transistoren auf 826 mm² an das Limit des technisch Machbaren, darunter 48 MByte L2-Cache für große KI-Modelle – konträr zu den Gaming-Amperes.

Ein umgebautes Render-Backend erklärt die für Nvidia-Verhältnisse ungewöhnliche Anzahl von Render-Output-Einheiten (ROPs): Waren die Rasterendstufen bisher an die Speicher-Controller gekoppelt, sind sie bei der RTX-3000-Serie Teil des Graphics Processor Cluster (GPC), in dem auch die Shader-Multiprozessoren sitzen. Pro GPC sieht Nvidia 16 ROPs, aufgeteilt in zwei Partitionen, vor, ergibt beim Topmodell 112 ROPs (7 GPCs, 82 SMs) und 96 bei der GeForce RTX 3080 (6 GPC, 68 SMs).

Spezifikationen der RTX-3000-Reihe (Ampere, 8 nm)
Modell GeForce RTX 3090 GeForce RTX 3080 GeForce RTX 3070
GPU GA102 GA102 GA104
FP32-Kerne 10.496 8704 5888
Basistakt / Boost 1400 / 1700 MHz 1440 / 1710 MHz 1500 / 1730 MHz
theoretische Rechenleistung FP32 36 TFlops 30 TFlops 20 TFlops
Raytracing-Kerne / RTX-Ops 82 / 69 68 / 58 46 / 40
Tensor-Kerne / Tensor-Tflops (mit "Sparsity") 328 / 285 272 / 238 184 / 163
Speichermenge / -typ 24 GByte GDDR6X 10 GByte GDDR6X 8 GByte GDDR6
Interface / Übertragungsrate 384 Bit / 936 GByte/s 320 Bit / 760 GByte/s 256 Bit / 448 GByte/s
Total Board Power (TBP) 350 Watt 320 Watt 220 Watt

Raytracing- und Tensor-Kerne erhalten ebenfalls Verbesserungen: Die Ampere-Raytracing-Kerne können die Schnittpunkte von Strahlen mit Dreiecken (Intersections) doppelt so schnell berechnen wie jene von Turing. Details zum Durchwandern der Beschleunigungsstrukturen, dem sogenannten Bounding-Volume-Hierarchy-Traversal, nannte Nvidia bisher nicht.

Mehr Infos

x

Die Tensor-Kerne berechnen Matrizen jetzt deutlich schneller, dafür verbaut der Chiphersteller weniger. Die GeForce RTX 3080 kommt auf 119 TeraFlops bei FP16-Ausgabe, mit dem Verwerfen unnötiger Nullwerte ("Sparsity") auf 238 TeraFlops. Die Tensor-Kerne der GeForce RTX 2080 SUPER schaffen 89 FP16-TeraFlops.

Für Spieleentwickler dürfte die wichtigste Neuerung die gleichzeitige Nutzung der Shader-, Raytracing- und Tensor-Kerne darstellen. So können die Shader Farbabstufungen berechnen, die Raytracing-Einheiten virtuelle Lichtstrahlen und die Tensor-Cores parallel per KI-Upscaling Deep Learning Super Sampling (DLSS) eine höhere Ausgabeauflösung. Bei den RTX-2000-Grafikkarten können die GPUs Raytracing- und Tensor-Kerne nur nacheinander ansprechen.

Raytracing- und Tensor-Kerne lassen sich bei den Ampere-Grafikkarten erstmals gleichzeitig nutzen. Eine asynchrone Aufgabenverteilung spart Render-Zeit.

(Bild: Nvidia, via Computerbase)

(mma)