KI-Netze ohne Engpässe: Arista überarbeitet Lastverteilung und Monitoring

Netzwerkausrüster Arista bringt Updates für Equipment und Monitoring. Eine neue Lastverteilung soll Latenzen senken und Aufgaben in KI-Netzen beschleunigen.

vorlesen Druckansicht
Server im Rechenzentrum

(Bild: Gorodenkoff/Shutterstock.com)

Lesezeit: 3 Min.
Von
  • Benjamin Pfister
close notice

This article is also available in English. It was translated with technical assistance and editorially reviewed before publication.

Der Netzwerkausrüster für Rechenzentren Arista Networks hat sein Netzwerkequipment und das dazugehörige Monitoring für KI-Workloads überarbeitet. Es umfasst nun ein Cluster Load Balancing (CLB), das die Datenströme gleichmäßig verteilen soll. Zudem soll das Überwachungstool CloudVision Universal Network Observability (CV UNO) eine Ende-zu-Ende-Sichtbarkeit im KI-Netzwerk erzeugen und so eine Agnostik für die zugehörigen Flows und potenziellen Fehlerbilder ermöglichen.

KI-Cluster erzeugen im Netzwerk für das KI-Training meist wenige Datenströme, die jedoch über eine hohe Bandbreite verfügen. Herkömmliche Methoden zur Lastverteilung, die rein auf der Ebene der Netzwerk-Header agieren, sind für KI-Workloads daher oft ineffizient und führen zu einer ungleichmäßigen Verteilung des Traffics. Außerdem entstehen teilweise erhöhte Latenzen und Paketverluste, die den Abschluss der Aufgaben verzögern.

CLB soll diese Zeit durch eine Agnostik für den Datenverkehr des Remote Direct Memory Access (RDMA) reduzieren. Ebenso wirkt das CLB auf das Kommunikationsverhalten der KI-Trainingssoftware über die Recheneinheit mit deren dediziertem Netzwerk. Konkret arbeitet die Lastverteilung mit dem bidirektionalen Datenfluss in einer Spine-Leaf-Architektur, also sowohl von Spine zu Leaf, als auch in die Gegenrichtung. Dort soll das CLB relevante Flows erkennen, eine gleichmäßige Verteilung aller Datenströme gewährleisten und gleichzeitig die Latenz gering halten.

Jeder RDMA-Endpunkt, etwa ein Server in einem KI-Cluster, besitzt mindestens ein Warteschlangenpaar, die mit einem Remote Queue Pair auf einem anderen Server kommuniziert. Ein solches Paar besteht aus einer Sende- und einer Empfangswarteschlange und kann ohne Beteiligung der CPU direkt auf den Speicher zugreifen. So lassen sich Latenzen reduzieren. Unternehmensangaben zufolge habe der Kunde Oracle aufgrund der überarbeiteten Lastverteilungen Probleme mit kollidierenden Datenströmen vermieden und den Durchsatz in Machine-Learning-Netzwerken erhöht.

Mit seiner Überwachungsplattform CV UNO will Arista seinen Kunden einen umfassenden Blick auf KI-Netze ermöglichen. Nutzer können über das neue Monitoring den Zustand von KI-Jobs einsehen. Dazu zählen auch Job-Fertigstellungszeiten, Puffer-/Link-Auslastung und Überlastungsindikatoren wie ECN-markierte Pakete, PFC-Pausenframes und Paketfehler.

Videos by heise

Die sogenannte Deep-Dive-Analytik soll kritische, jobspezifische Ereignisse auf Switches und Server-NICs, etwa RDMA-Fehler oder PCIe-Fatal-Errors, erkennen können. Weiterhin soll sie zugehörige Flows präzise identifizieren, um Performance-Engpässe sehen zu können. Zudem verfügt die Funktion über eine Flow-Visualisierung für Abläufe von KI-Jobs mit einer Granularität von Mikrosekunden. Im Bereich der KI-Infrastruktur weiteten Nvidia und Arista-Konkurrent Cisco ihre Zusammenarbeit zuletzt weiter aus.

(sfe)