Alle gegen Nvidia: Offener Standard "UALink" vernetzt KI-Cluster

Nvidia dominiert bei KI-Beschleunigern und koppelt sie per NVLink. Dagegen setzen AMD, Intel, Broadcom, Cisco und die Hyperscaler nun UALink und Ultra Ethernet.

9

Switch mit Netzwerkkabeln.

(Bild: momente/Shutterstock.com)

30.05.2024, 20:33 Uhr

Lesezeit: 3 Min.

c't Magazin

Von

Christof Windeck

Das explosive Marktwachstum bei den KI-Servern krempelt die Technik um. Nvidia dominiert nicht nur den Markt für KI-Rechenbeschleuniger, sondern dadurch mit dem proprietären NVLink wiederum die dafür nötige, superschnelle Vernetzungstechnik.

Deshalb kooperieren nun die Firmen AMD, Broadcom, Cisco, Google, HPE, Intel, Meta und Microsoft beim offenen Interconnect Ultra Accelerator Link (UALink). Dabei spielen auch Ultra Ethernet sowie der Compute Express Link (CXL) auf Basis von PCIe 5.0 eine Rolle.

Interconnect hängt an Rechenbeschleunigern

Cluster aus aktuellen KI-Hochleistungsrechenbeschleunigern sind anders miteinander vernetzt als etwa ältere Supercomputer. Der Interconnect ist in den einzelnen Rechenknoten nicht mehr an den Hauptprozessoren (CPUs) angebunden, sondern direkt an den KI-Beschleunigern (GPUs). Diese sind einerseits innerhalb des Knotens extrem schnell miteinander gekoppelt, um auch KI-Modelle schnell verarbeiten zu können, die nicht in den lokalen Speicher eines einzelnen Rechenbeschleunigers passen. Andererseits haben mehrere der KI-Beschleuniger auch externe Anschlüsse, um weitere Knoten über einen Switch mit hoher Bandbreite und niedriger Latenz zu erreichen.

Dabei setzt Nvidia seit einigen Jahren auf NVLink. Vor vier Jahren hat das Unternehmen für sieben Milliarden US-Dollar den Netzwerk-Experten Mellanox zugekauft.

Blockschaltbild KI-Server mit AMD Instinct MI — Die 200G-Ethernet-Adapter zur Vernetzung mehrerer Server mit KI-Rechenbeschleunigern von AMD hängen an letzteren, nicht an der CPU.

(Bild: AMD)

Konkurrenz abgehängt

Innerhalb der einzelnen Knoten nutzen die jeweiligen Hersteller von KI-Beschleunigern proprietäre Verfahren wie AMD Infinity Fabric oder den offenen Standard Compute Express Link (CXL). Der Ultra Accelerator Link soll künftig die externe Brücke zwischen maximal 1024 Knoten eines KI-Clusters bilden.

Mit Infiniband steht zwar seit Jahren ein schneller Interconnect für Cluster bereit. Anscheinend schreitet die Entwicklung dort aber nicht rasch genug voran, und es gibt nur (noch) wenige Firmen, die Infiniband-Hardware fertigen.

Bei Ethernet gibt es mehr Konkurrenz, und die Infrastruktur aus Kabeln und Switches ist flexibler nutzbar. Unter anderem Intel arbeitet bereits an 800G-Ethernet-Adaptern, Broadcom an Switch-Chips. An der Spezifikation für 1,6-TBit-Ethernet wird bereits gewerkelt (IEEE P802.3dj draft). Verfahren wie Remote DMA over Converged Ethernet (RoCE) stehen zur Hochleistungsvernetzung von Clustern als Alternative zu Infiniband bereit.

Unter dem Dach der Linux Foundation arbeitet seit Ende 2023 das Ultra Ethernet Consortium (UEC). Es will Datentransfers auf allen Ebenen beschleunigen und optimieren: Physical Layer, Link Layer, Transport Layer und Software Layer.

Innerhalb der kommenden vier Monate will das Ultra Accelerator Link Consortium eine erste Version der Spezifikation veröffentlichen, sich formal gründen, und dann sicherlich eine Website einrichten. Bisher gibt es nur eine Pressemeldung, die wenige Tage vor der Computex 2024 herausgegeben wurde.