GTC 2017: Nvidia stellt Riesen-GPU Volta mit 5120 Kernen und 16 GByte HBM2 vor
Volta besteht aus über 21 Milliarden Transistoren und enthält auf der Tesla V100 5120 Shader-Rechenkerne. Im dritten Quartal 2017 will Nvidia erste Server mit Volta-GPUs ausliefern.
Nvidia-Chef Jen-Hsun Huang hat auf der GPU Technology Conference in San Jose die kommende GPU-Generation Volta vorgestellt. Sie bietet wesentlich mehr Rechenleistung als die aktuelle Pascal-Generation und ist auf Deep-Learning-Berechnungen zugeschnitten. Die von Huang vorgestellte GPU läuft unter der Bezeichnung GV100 und kommt zunächst auf der Profi-Rechenkarte Tesla V100 zum Einsatz.
Riesenchip mit über 5000 Kernen
GV100 besteht aus 21,1 Milliaren Transistoren und wird vom taiwanischen Auftragsfertiger TSMC mit 12-Nanometer-FFN--Strukturen gefertigt. Zwar soll Volta laut Jonah Alben, Vice President of GPU Engineering, auf einer neuen Architektur aufbauen, die Organisation der Funktionseinheiten ähnelt jedoch dem Pascal-Vorgänger GP100. Die Volta-GPU nimmt eine Fläche von 815 mm² ein und enthält 5120 Shader-Rechenkerne auf der Tesla V100. Zusammen erreichen sie eine Rechenleistung von 15 Billionen Gleitkommaoperationen pro Sekunde (TFlops) bei einfacher Genauigkeit und 7,5 TFlops bei doppelter Genauigkeit (Double Precision). Im Vergleich zum Vorgänger GP100 steigt die Rechenleistung um etwa 40 Prozent. Nvidia zufolge besteht die GV100-GPU im Vollausbau aus 5376 Kernen.
Deep-Learning-Spezialeinheit
Eine als Tensor-Core bezeichnete, auf Deep-Learning-Computing optimierte Einheit soll via CUDA TensorOp-Instruktionen besonders effizient verarbeiten. Die 640 Tensor-Cores des GV100 sollen auf der Tesla V100 eine Rechenleistung von 120 Tensor-TFlops erreichen. Die Tensor-Cores gewährleisten dabei sowohl beim Training als auch beim Inferencing eine besonders hohe Performance.
Überdies enthält GV100 320 Textureinheiten, ein 20 MByte großes Register File und 16 MByte Cache. Nvidia stattet die Rechenkarte mit 16 GByte High Bandwidth Memory 2 aus, der eine Transferrate von 900 GByte/s erreichen soll und von Samsung gefertigt wird. Ein genaues Datenblatt zu GV100 hat Nvidia auf seiner Developer-Seite veröffentlicht.
Volta-Server für 149.000 US-Dollar
Nvidia kündigte ebenfalls einen neuen Deep-Learning-Server mit acht Tesla V100 an. Der DGX-1 soll damit eine theoretische Rechenleistung von 960 Tensor-TFlops erreichen, ab dem dritten Quartal 2017 verfügbar sein und 149.000 US-Dollar kosten. Die kompakte DGX Station enthält vier Tesla V100 und kostet 69.000 US-Dollar. Über NVLink 2.0 können die Tesla-Karten untereinander mit 300 GByte/s kommunizieren.
Tesla K40 | Tesla M40 | Tesla P100 | Tesla V100 | |
GPU | GK110 (Kepler) | GM200 (Maxwell) | GP100 (Pascal) | GV100 (Volta) |
SMs | 15 | 24 | 56 | 80 |
TPCs | 15 | 24 | 28 | 40 |
FP32 Cores / SM | 192 | 128 | 64 | 64 |
FP32 Cores / GPU | 2880 | 3072 | 3584 | 5120 |
FP64 Cores / SM | 64 | 4 | 32 | 32 |
FP64 Cores / GPU | 960 | 96 | 1792 | 2560 |
Tensor Cores / SM | -- | -- | -- | 8 |
Tensor Cores / GPU | -- | -- | -- | 640 |
GPU Boost Clock | 810/875 MHz | 1114 MHz | 1480 MHz | 1455 MHz |
Peak FP32 TFLOP/s* | 5,04 | 6,8 | 10,6 | 15 |
Peak FP64 TFLOP/s* | 1,68 | 2,1 | 5,3 | 7,5 |
Peak Tensor Core TFLOP/s* | -- | -- | -- | 120 |
Texture Units | 240 | 192 | 224 | 320 |
Memory Interface | 384-bit GDDR5 | 384-bit GDDR5 | 4096-bit HBM2 | 4096-bit HBM2 |
Memory Size | Up to 12 GB | Up to 24 GB | 16 GB | 16 GB |
L2 Cache Size | 1536 KB | 3072 KB | 4096 KB | 6144 KB |
Shared Memory Size / SM | 16 KB/32 KB/48 KB | 96 KB | 64 KB | Configurable up to 96 KB |
Register File Size / SM | 256 KB | 256 KB | 256 KB | 256KB |
Register File Size / GPU | 3840 KB | 6144 KB | 14336 KB | 20480 KB |
TDP | 235 Watts | 250 Watts | 300 Watts | 300 Watts |
Transistors | 7.1 billion | 8 billion | 15.3 billion | 21.1 billion |
GPU Die Size | 551 mm² | 601 mm² | 610 mm² | 815 mm² |
Manufacturing Process | 28 nm | 28 nm | 16 nm FinFET+ | 12 nm FFN |
(mfi)