Huawei Ascend 910: 256-TeraFlops-Prozessor für KI

Der Ascend 910 soll Nvidias Tesla V100 beim KI-Training um den Faktor 2 übertreffen; der Ascend 310 verspricht effizientes Inferencing.

19

(Bild: issaro prakalung / Shutterstock.com)

23.08.2019, 15:00 Uhr

Lesezeit: 3 Min.

c't Magazin

Von

Christof Windeck

Der chinesische IT-Gigant Huawei stellt mit dem Ascend 910 einen extrem leistungsstarken Spezialprozessor für Rechenzentren zum Training von KI-Modellen vor. Mit 256 TFlops Rechenleistung bei Gleitkommawerten mit halber Genauigkeit (FP16) und 512 TOPs bei INT8-Werten schlägt er die weit verbreitete Nvidia Tesla V100 deutlich, verspricht Huawei.

Um die Rechenwerke schnell genug mit Daten zu füttern, stapelt Huawei nicht nur SRAM-Chips auf das "Virtuvian"-Die des Ascend 910, sondern stellt ihm auch noch acht Speicherstapel des neuen Typs HBM2E zur Seite; außerdem ist ein DDR4-Speichercontroller eingebaut.

Huawei Ascend 910 und Ascend 310 (7 Bilder)

Die Huawei-Sparte HiSilicon packt in den Ascend 910 außer 32 KI-Kernen vom Typ Da Vinci Max etwa auch 16 ARM-Kerne (Taishan MP4) sowie SRAM-, DDR4- und HBM-Speichercontroller.
(Bild: Huawei)

Während der GV100-Chip der Tesla V100 mit 12-nm-Strukturen gefertigt wird und Intel beim kommenden NNP-T (Spring Crest) auf 16-nm-Technik setzt, lässt Huawei den Virtuvian in der aktuellen Fertigungstechnik 7nm+ mit EUV-Lithografie produzieren. Beim gleichzeitig vorgestellten Ascend 310, der als effizienter Rechenbeschleuniger zur Anwendung von KI-Algorithmen (Inferencing) gedacht ist, setzt Huawei auf 12-nm-Technik.

Tensor-Kern Da Vinci

Herzstück des Ascend 910 sind Huaweis eigene "Da Vinci"-Tensorprozessoren in der "Max"-Ausführung fürs Training; im Ascend 310 kommt Da Vinci Mini zum Einsatz. Jeder Tensor-Kern liefert im Ascend 910 8 TOPs, je vier davon sitzen in einem Cluster, von dem der Ascend 910 wiederum 16 enthält. Dazu kommen noch 16 ARMv8-Rechenkerne vom Typ Taishan MP4 sowie H.264- und H.265-Hardware-Decoder für bis zu 128 Videokanäle, etwa für die Videoüberwachung.

Laut Huawei war eine maximale Leistungsaufnahme von 350 Watt angepeilt, tatsächlich habe man aber nun 310 Watt erreicht. In Rack-Servern, deren Konstruktion an Nvidias DGX-2 erinnert, packt Huawei jeweils 8 Ascend 910 mit 2 Intel Xeon zusammen. Jedes Rack soll dann 2 PFlops leisten – wohl nicht zufällig dasselbe wie Nvidias 399.000 US-Dollar teure DGX-2 mit 16 Tesla V100.

Ein separates "Nimbus"-Die verbindet den Virtuvian mit der Außenwelt, unter anderem per PCI Express und mit dem Cache-kohärenten Interface CCIX; darüber lassen sich etwa FPGAs anbinden. Außer mit x86-Servern lässt sich der Ascend 910 auch mit ARM-Maschinen koppeln; Huawei selbst hat Systeme mit dem 64-Kerner Kunpeng 920 alias HiSilicon Hi1620 im Angebot.

Huawei betont, auch passende Software zur einfachen Programmierung von KI-Algorithmen zu liefern, das KI-Computing-Framework namens MindSpore. Huawei veröffentlichte allerdings weder Preise noch genaue Liefertermine. (ciw)