Huawei Ascend 910: 256-TeraFlops-Prozessor für KI

| 23.08.2019 15:00 Uhr Christof Windeck

Der Ascend 910 soll Nvidias Tesla V100 beim KI-Training um den Faktor 2 übertreffen; der Ascend 310 verspricht effizientes Inferencing.

Der chinesische IT-Gigant Huawei stellt mit dem Ascend 910 einen extrem leistungsstarken Spezialprozessor für Rechenzentren zum Training von KI-Modellen vor. Mit 256 TFlops Rechenleistung bei Gleitkommawerten mit halber Genauigkeit (FP16) und 512 TOPs bei INT8-Werten schlägt er die weit verbreitete Nvidia Tesla V100 deutlich, verspricht Huawei.

Um die Rechenwerke schnell genug mit Daten zu füttern, stapelt Huawei nicht nur SRAM-Chips auf das "Virtuvian"-Die des Ascend 910, sondern stellt ihm auch noch acht Speicherstapel des neuen Typs HBM2E zur Seite; außerdem ist ein DDR4-Speichercontroller eingebaut.

Huawei Ascend 910 und Ascend 310 (0 Bilder) [1]

[2]

Während der GV100-Chip der Tesla V100 [3] mit 12-nm-Strukturen gefertigt wird und Intel beim kommenden NNP-T (Spring Crest) [4] auf 16-nm-Technik setzt, lässt Huawei den Virtuvian in der aktuellen Fertigungstechnik 7nm+ mit EUV-Lithografie produzieren. Beim gleichzeitig vorgestellten Ascend 310, der als effizienter Rechenbeschleuniger zur Anwendung von KI-Algorithmen (Inferencing) gedacht ist, setzt Huawei auf 12-nm-Technik.

Tensor-Kern Da Vinci

Herzstück des Ascend 910 sind Huaweis eigene "Da Vinci"-Tensorprozessoren in der "Max"-Ausführung fürs Training; im Ascend 310 kommt Da Vinci Mini zum Einsatz. Jeder Tensor-Kern liefert im Ascend 910 8 TOPs, je vier davon sitzen in einem Cluster, von dem der Ascend 910 wiederum 16 enthält. Dazu kommen noch 16 ARMv8-Rechenkerne vom Typ Taishan MP4 sowie H.264- und H.265-Hardware-Decoder für bis zu 128 Videokanäle, etwa für die Videoüberwachung [5].

Laut Huawei war eine maximale Leistungsaufnahme von 350 Watt angepeilt, tatsächlich habe man aber nun 310 Watt erreicht. In Rack-Servern, deren Konstruktion an Nvidias DGX-2 erinnert, packt Huawei jeweils 8 Ascend 910 mit 2 Intel Xeon zusammen. Jedes Rack soll dann 2 PFlops leisten – wohl nicht zufällig dasselbe wie Nvidias 399.000 US-Dollar teure DGX-2 mit 16 Tesla V100 [6].

Ein separates "Nimbus"-Die verbindet den Virtuvian mit der Außenwelt, unter anderem per PCI Express und mit dem Cache-kohärenten Interface CCIX [7]; darüber lassen sich etwa FPGAs anbinden. Außer mit x86-Servern lässt sich der Ascend 910 auch mit ARM-Maschinen koppeln; Huawei selbst hat Systeme mit dem 64-Kerner Kunpeng 920 alias HiSilicon Hi1620 [8] im Angebot.

Huawei betont, auch passende Software zur einfachen Programmierung von KI-Algorithmen zu liefern, das KI-Computing-Framework namens MindSpore. Huawei veröffentlichte allerdings weder Preise noch genaue Liefertermine. (ciw [9])

URL dieses Artikels:
https://www.heise.de/-4503849

Links in diesem Artikel:
[1] https://www.heise.de/bilderstrecke/bilderstrecke_4503764.html?back=4503849;back=4503849
[2] https://www.heise.de/bilderstrecke/bilderstrecke_4503764.html?back=4503849;back=4503849
[3] https://www.heise.de/news/GTC-2017-Nvidia-stellt-Riesen-GPU-Volta-mit-5120-Kernen-und-16-GByte-HBM2-vor-3710317.html
[4] https://www.heise.de/news/Intels-KI-Beschleuniger-NNP-T-mit-PCIe-4-0-und-TSMC-Technik-4503082.html
[5] https://www.heise.de/news/China-Behoerden-fahnden-angeblich-vermehrt-per-Gesichtserkennung-nach-Uiguren-4399312.html
[6] https://www.heise.de/news/Nvidia-DGX-2-Machine-Learning-Monster-mit-16-GPUs-und-2-Petaflops-Rechenleistung-4006751.html
[7] https://www.heise.de/news/CCIX-Schnittstelle-fuer-Hardware-Beschleuniger-3215723.html
[8] https://www.heise.de/news/Huawei-HiSilicon-Hi1620-ARM64-Server-CPU-mit-7-nm-Technik-4228804.html
[9] mailto:ciw@ct.de