Tesla V100: Nvidia ĂĽbergibt erste Volta-Rechenkarten an Deep-Learning-Forscher
Nvidia-Chef Jensen Huang hat die ersten Rechenkarten mit Volta-GPUs an Forscher im Bereich der kĂĽnstlichen Intelligenz ĂĽberreicht.
Nvidia hat erste Exemplare der Volta-Rechenkarte Tesla V100 an Wissenschaftler übergeben, die im Bereich der künstlichen Intelligenz forschen. Diese ersten 15 Exemplare sollen den Startschuss darstellen für kommende Auslieferungen – diese hatte Nvidia zur Vorstellung der Volta-GPUs (März 2017) für das dritte Quartal des Jahres angekündigt. Dann soll auch der Deep-Learning-Server DGX-1 mit acht Tesla V100 erhältlich sein – für 149.000 US-Dollar.
Volta-GPU mit bis zu 120 TFlops
Volta ist Nvidias neueste GPU, die vor allem auf Berechnungen im Bereich der künstlichen Intelligenz beziehungsweise des Deep Learnings zugeschnitten ist. Die unter dem Codenamen GV100 laufende GPU besteht aus 21,1 Milliarden Transistoren und wird vom taiwanischen Auftragsfertiger TSMC gefertigt (12-Nanometer-FFN). Nvidia bringt auf einer Chipfläche von stattlichen 815 mm² 5120 Shader-Rechenkerne unter, die Berechnungen mit einfacher Genauigkeit (15 TFlops, 30 TFlops bei FP16) durchführen, die 2560 Double-Precision Einheiten schaffen theoretisch 7,5 FP64-TFlops. Die PCIe-Karte erreicht im Vergleich zur SXM2-Variante aufgrund der etwas niedrigeren Taktfrequenz (1370 statt 1455 MHz) eine etwas geringere theoretische Rechenleistung (14 bzw. 7 TFlops)
Überdies enthält Volta 640 Deep-Learning-Spezialeinheiten, die sogenannten Tensor Cores – jeder Streaming-Multiprozessor enthält acht Tensor Cores. Sie erreichen sowohl beim Training als auch beim Inferencing von neuronalen Netzwerken eine Rechenleistung von bis zu 120 TFlops, also 120 Billionen Operationen pro Sekunde – sind allerdings nur eingeschränkt programmierbar.
HBM2-Speicher mit 900 GByte/s, L1-Cache mit 14 TByte/s
Ein Chip mit derart hoher Rechenleistung erfordert auch hohe Transferraten – dafür soll High Bandwidth Memory 2 sorgen, der auf der Tesla V100 900 GByte/s erreicht. Bei der Speichergröße bleibt Nvidia wie schon beim Vorgänger Tesla P100 bei 16 GByte. Theoretisch sei aber ein Speicherausbau auf 32 GByte möglich, wie Jonah Alben auf der GPU Technology Conference 2017 gegenüber heise online erklärte. Außerdem habe Voltas L1-Cache im Vergleich zum Pascal-Chip der Tesla P100 eine um den Faktor 4 geringere Latenz und erreiche einen Durchsatz von zirka 14 Terabyte/s.
Spieler-Grafikkarten mit Volta-GPU und bis zu 336 Textureinheiten werden zum derzeitigen Stand nicht vor 2018 erwartet.
Tesla K40 | Tesla M40 | Tesla P100 | Tesla V100 | |
GPU | GK110 (Kepler) | GM200 (Maxwell) | GP100 (Pascal) | GV100 (Volta) |
SMs | 15 | 24 | 56 | 80 |
TPCs | 15 | 24 | 28 | 40 |
FP32 Cores / SM | 192 | 128 | 64 | 64 |
FP32 Cores / GPU | 2880 | 3072 | 3584 | 5120 |
FP64 Cores / SM | 64 | 4 | 32 | 32 |
FP64 Cores / GPU | 960 | 96 | 1792 | 2560 |
Tensor Cores / SM | -- | -- | -- | 8 |
Tensor Cores / GPU | -- | -- | -- | 640 |
GPU Boost Clock | 810/875 MHz | 1114 MHz | 1480 MHz | 1455 MHz |
Peak FP32 TFLOP/s* | 5,04 | 6,8 | 10,6 | 15 |
Peak FP64 TFLOP/s* | 1,68 | 2,1 | 5,3 | 7,5 |
Peak Tensor Core TFLOP/s* | -- | -- | -- | 120 |
Texture Units | 240 | 192 | 224 | 320 |
Memory Interface | 384-bit GDDR5 | 384-bit GDDR5 | 4096-bit HBM2 | 4096-bit HBM2 |
Memory Size | Up to 12 GB | Up to 24 GB | 16 GB | 16 GB |
L2 Cache Size | 1536 KB | 3072 KB | 4096 KB | 6144 KB |
Shared Memory Size / SM | 16 KB/32 KB/48 KB | 96 KB | 64 KB | Configurable up to 96 KB |
Register File Size / SM | 256 KB | 256 KB | 256 KB | 256KB |
Register File Size / GPU | 3840 KB | 6144 KB | 14336 KB | 20480 KB |
TDP | 235 Watts | 250 Watts | 300 Watts | 300 Watts |
Transistors | 7.1 billion | 8 billion | 15.3 billion | 21.1 billion |
GPU Die Size | 551 mm² | 601 mm² | 610 mm² | 815 mm² |
Manufacturing Process | 28 nm | 28 nm | 16 nm FinFET+ | 12 nm FFN |
(mfi)