Cloud-Native: Volcano 1.7.0 mit verbessertem Plug-in für PyTorch

Die neue Version 1.7 des Batch-Computing-Projekts Volcano bietet eine Reihe Features, mit denen KI und Python-Frameworks nun besser zusammenarbeiten sollen.

In Pocket speichern vorlesen Druckansicht
Red,Giant,Star,On,The,Horizon,Of,A,Desert,Planet.

(Bild: Andrea Danti/Shutterstock.com)

Lesezeit: 3 Min.
Von
  • Frank-Michael Schlede

Das Volcano-System, das zur Ausführung von Hochleistungs-Workloads auf Kubernetes gedacht ist, ist seit April 2022 ein Inkubator-Projekt der Cloud Native Computing Foundation (CNCF). Aktuell hat das Entwicklerteam mit der Version 1.7.0 als neue Features und Möglichkeiten neben einem verbesserten Plug-in für PyTorch Jobs auch Ray auf Volcano sowie ein verbessertes Scheduling für allgemeine Kubernetes-Dienste vorgestellt. Multi-Architektur-Images von Volcano und optimierte Queue-Status-Informationen unterstützt die Software nun ebenfalls.

Der Blog-Eintrag der CNCF zu diesem neuen Release hebt ganz besonders hervor, dass bereits mehr als 490 internationale Entwickler und Entwicklerinnen Code zu dem Projekt beigetragen haben. Nachdem erst im Sommer 2022 die Version 1.6 der Software vorgestellt wurde, legt das Entwicklerteam jetzt schon mit der nächsten Version nach. Dabei legt es besonders Wert auf die Verfügbarkeit des Plug-ins für PyTorch-Jobs. Die Entwickler und Entwicklerinnen betonen, dass PyTorch eines der populärsten KI-Frameworks ist und sehr häufig in Deep-Learning-Anwendungen wie Computer Vision und Verarbeitung natürlicher Sprache zum Einsatz kommt.

Sie haben in diesem Release das Plug-in für PyTorch-Jobs grundsätzlich verbessert: Es soll nun Programmierer von der manuellen Konfiguration von Container-Ports sowie der Umgebungsvariablen MASTER_ADDR, MASTER_PORT, WORLD_SIZE und RANK befreien. Außerdem soll es Benutzer und Benutzerinnen helfen, weniger YAML schreiben zu müssen – und zudem den Betrieb von PyTorch-Jobs gewährleisten.

Zu den ebenfalls verbesserten Plug-ins gehören jene für TensorFlow und MPI, die das Ausführen von Berechnungsaufträgen auf den jeweiligen Trainingsframeworks vereinfachen sollen.

Auf GitHub stehen eine Design-Dokumentation und ein User Guide für die Arbeit mit dem PyTorch-Plug-in bereit.

Ebenfalls neu ist in diesem Release die Unterstützung für das Open-Source-Framework Ray. Dieses Framework erlaubt das Skalieren von KI- und Python-Anwendungen in der Cloud und Kubernetes-Clustern. Da Single-Node-Umgebungen häufig nicht genügend Ressourcen für Trainingsaufgaben bereitstellen, kann es die Ressourcen eines gesamten Clusters anstelle eines einzelnen Knotens nahtlos koordinieren, um auf diese Weise die gleiche Menge an Code auszuführen. Für Anwender und Anwenderinnen, die mehrere Arten von Jobs ausführen, arbeitet Volcano mit Ray zusammen, um ein besseres Batch Scheduling zu ermöglichen. Ray auf Volcano wurde dazu in KubeRay 0.4 veröffentlicht.

Der Blog-Betrag der CNCF führt diese und weitere Neuheiten und Änderungen in der Version 1.7.0 detailliert auf und bietet den Zugriff auf weitere Hintergrundinformationen.

(fms)