Nvidia-Beschleuniger für K.I. und Deep Learning: Tesla P4 und Tesla P40

Nvidia präsentiert die Tesla-Rechenkarten P4 und P40, die zugeschnitten sind auf Deep-Learning- und K.I.-Berechnungen. Ihre Pascal-Grafikchips sind höchst effizient, der Speicherausbau beträgt bis zu 24 GByte.

18

Die Tesla P4 ist winzig, aber dennoch sehr leistungsfähig.

(Bild: Nvidia/c't)

13.09.2016, 10:38 Uhr

Lesezeit: 2 Min.

Von

Martin Fischer

Nvidia hat zwei neue Rechenbeschleuniger fürs Supercomputing vorgestellt: die Tesla P4 und Tesla P40. Beide Karten sollen sich besonders gut für Deep-Learning- und K.I.-Berechnungen eignen. Zum Einsatz kommen effiziente Pascal-GPUs, die sich durch ihr gutes Verhältnis zwischen Performance und Leistungsaufnahme auszeichnen. Die Tesla P40 soll bereits im Oktober erhältlich sein, die Tesla P4 ab November. Einen Preis hat Nvidia nicht bekannt gegeben.

Eine Tesla P4 soll 40 Mal effizienter als ein Intel E5-2690 v4 und 8 Mal effizienter als ein Arria10-115-FPGA sein.

(Bild: Nvidia/c't)

Tesla P4: Kompakt und trotzdem sehr schnell

Tesla P4 ist eine besonders kompakte Rechenkarte in halber Bauhöhe (Low Profile) und kaum länger als der PCIe-x16-Steckplatz. Von der kompakten Bauweise darf man sich aber nicht täuschen lassen, denn der Pascal-Grafikchip GP104 enthält 2560 Rechenkerne, die theoretisch bis zu 5,44 Billionen Gleitkommaoperationen pro Sekunde (Teraflops/TFlops) bei einfacher Genauigkeit (Single Precision/SP) und 22 TOPS bei 8-Bit-Integer-Datentypen (Int8, für Deep Leaning Inferencing Instructions) durchführen können.

Dabei kommt die Karte mit einer Leistungsaufnahme von 75 Watt aus – also mit wesentlich weniger als handelsübliche Consumer-Grafikkarten mit GP104-GPU. Alternativ lässt sich die P4 auch in einem 50-Watt-Modus betreiben – etwa um der Kühlung des jeweiligen Blade-Servers zu genügen. Nvidia lässt die P4-GPU mit einem Basistakt von 810 MHz laufen; der Turbo-Takt liegt bei 1063 MHz. Als Speicher kommt GDDR5-SDRAM zum Einsatz, der 8 GByte Daten fasst und eine Transferrate von 192 GByte/s erreicht.

Tesla P40 / Server mit 8 Tesla P40

(Bild: Nvidia/c't)

Tesla P40: 3840 Kerne für Höchstleistung

Die Tesla P40 ist dank des GP102-Grafikchips wesentlich leistungsfähiger. Die 3840 Rechenkerne erreichen 12 TFlops bei Single Precision und 47 TOPS bei INT8. Ihnen stehen 24 GByte an GDDR5-Speicher zur Verfügung, der mit 346 GByte/s arbeitet. Die Leistungsaufnahme der Tesla P40 beträgt maximal 250 Watt.

Die Pascal-Grafikchips beider Tesla-Karten bieten außerdem eine Decoding- und zwei Encoding-Engines für die parallele Verarbeitung mehrerer Video-Streams. Unterstützt werden etwa über das Nvidia-Deepstream-SDK die Formate H.264, H.265/HEVC, MPEG-2, MPEG-4 und VP9. So ließen sich über einen Tesla-P4-Server über 90 Videostreams in 720p30 gleichzeitig analysieren, wofür man laut Nvidia sonst 13 Server mit je einem Intel E5-2650-v4-Prozessor (jeweils 12 Kerne/24 Threads) bräuchte.