Computex

KI-Beschleuniger für Server mit XDNA-Technik des AMD Ryzen 7040U

Gigabyte packt 16 KI-Inferencing-Beschleuniger vom Typ AMD Alveo V70 mit XDNA-Technik in einen Rackserver. Die Karten sollen Video- und Sprachdaten analysieren.

In Pocket speichern vorlesen Druckansicht
Vier KI-Beschleuniger vom Typ AMD Alveo V70 für Server.

Vier KI-Beschleuniger vom Typ AMD Alveo V70 für Server.

(Bild: c’t-Magazin)

Lesezeit: 2 Min.

Für die Echtzeitanalyse von Videos oder auch zur Sprachverarbeitung im Rechenzentrum brauchen Server schnelle und effiziente KI-Inferencing-Beschleuniger. AMD hatte schon zur CES den Alveo V70 angekündigt, den es als PCIe-Karte der 75-Watt-Klasse gibt. Auf der Computex zeigte Gigabyte einen Server mit zwei AMD Epyc 9004, der bis zu 16 dieser Alveo-V70-Beschleuniger aufnimmt. Jede Karte liefert laut AMD/Xilinx bis zu 202 BFloat16-Tera-OPS (202 TOps) und bei INT8 sogar 404 TOps.

Rackserver von Gigabyte für zwei AMD Epyc 9004, 24 DIMMs und bis zu 16 Alveo-V70-Karten (oben)

(Bild: c’t-Magazin)

Als Programmierschnittstelle stellt AMD/Xilinx via GitHub das Unified Inference Frontend (UIF) 1.1 bereit, das Machine-Learning-Frameworks wie ONNX, PyTorch, TensorFlow und Windows ML optimal an die Hardware anbinden soll. Für die Zukunft ist der AMD Unified AI Stack 2.0 geplant.

Während die meisten Smartphone-Chips bereits KI-Inferencing-Beschleuniger wie Apples Neural Engine (ANE) enthalten, kommen solche Einheiten bei x86-Prozessoren von AMD und Intel erst auf den Markt. Allerdings beherrschen die AVX-Einheiten moderner x86-CPUs KI-Befehle wie VNNI und die GPU-Shader integrierter Grafikprozessoren lassen sich ebenfalls fürs Inferencing einspannen.

Doch erst mit Intel Meteor Lake und AMD Ryzen 7040U alias Phoenix kommen x86-Mobilprozessoren mit dedizierten KI-Einheiten, die Intel VPU nennt und AMD "Ryzen AI" beziehungsweise XDNA. Das "X" bezieht sich auch auf die zugekaufte FPGA-Sparte Xilinx, die die "Versal AI Cores" seit einigen Jahren entwickelt.

Microsoft arbeitet an der Integration von Machine-Learning-Beschleunigern ins Betriebssystem Windows und stellte dazu vor 5 Jahren die API Windows ML (WinML) mit ONNX vor. In Windows 11 sind beispielsweise die Windows Studio Effects zur Echtzeitverarbeitung von Webcam-Bildern enthalten, die WinML/DirectML nutzen.

(ciw)