Machine Learning: Ray 2.0 macht verteilte Workloads großer Modelle skalierbarer

Das Framework zum Skalieren von KI- und Python-Apps unterstützt die Zufallswiedergabe großer Datensätze über 100 Terabyte. Es führt die AI Runtime Ray AIR ein.

In Pocket speichern vorlesen Druckansicht

(Bild: everything possible/Shutterstock.com)

Lesezeit: 4 Min.
Von
  • Silke Hahn
Inhaltsverzeichnis

Ray, ein Open-Source-Framework für große Machine-Learning-Anwendungen, liegt in der zweiten Hauptversion vor. Ray 2.0 erscheint nach einer Reihe von Iterationen zwei Jahre nach der ersten Hauptversion und bietet wesentliche Neuerungen in sämtlichen Bibliotheken, neue Funktionen zum Vereinheitlichen von ML-Workflows und eine laut Herausgebern verbesserte Unterstützung beim Produzieren von ML-Anwendungen. Zudem sollen die Bibliotheken sich einfacher als bislang verwenden und einbinden lassen.

Das Ray-Team hatte sich laut Releasemeldung für Ray 2.0 das Ziel gesteckt, ML-Workloads über unterschiedliche Tools hinweg zu vereinheitlichen. So soll es mit der neuen Hauptversion möglich sein, in einem ML-Workload zugleich TensorFlow, PyTorch und HuggingFace zu nutzen. Möglich machen das neue Werkzeuge, die sich noch im Betastadium befinden, insbesondere die Ray AI Runtime (kurz: AIR), die zum Skalieren und Vereinheitlichen von ML-Anwendungen dient, sowie KubeRay (Beta) für das Ausführen von Ray auf Kubernetes. KubeRay soll perspektivisch den alten, Python-basierten Ray-Operator ablösen. Mit der Datasets-Bibliothek unterstützt Ray ab sofort nativ die Zufallswiedergabe großer Datenmengen im Umfang von 100 Terabyte und mehr.

Als weiteres Highlight gilt die Deployment Graph API von Ray Serve, die eine neue einfache Methode zum Erstellen, Testen und Bereitstellen der Inferenzgraphen von Deployments ermöglicht (auch die API befindet sich noch in der Betaphase). Speziell beim Deployment einer Vielzahl von ML-Modellen mit komplexen wechselseitigen Abhängigkeiten soll Ray 2.0 dank der Ray-Serve-Deployment-Graphen seinen Herausgebern zufolge punkten können.

Die allgemeine Verfügbarkeit teilte das Projektteam auf dem Ray Summit mit, der vom 22. bis 24. August 2022 in San Francisco stattfand. Das Framework und sein Ökosystem haben sich mittlerweile für das Skalieren und Betreiben großer, komplexer KI-Workloads bewährt. Unter anderem steht es hinter GPT-3, dem großen Sprachmodell von OpenAI, und Anbieter wie Shopify und Amazon greifen laut Projektteam auf Ray zurück. Im Bereich MLOps gilt Ray ebenfalls als etabliertes Werkzeug zum Verwalten von Workloads.

Hinter dem Open-Source-Projekt steht das Unternehmen Anyscale, das auf dem Summit auch eine neue Enterprise-Plattform zum Betreiben von Ray vorstellte. Das Framework war aus einem kleinen Uni-Projekt an der UC Berkeley hervorgegangen, der Mitgründer und CEO Robert Nishihara trug beim Summit die Hintergründe und Anliegen des Projekts in einer Keynote vor. Auf dem Summit kam auch Greg Brockman zu Wort, der CTO und Co-Founder von OpenAI. Ihm zufolge nutzt OpenAI Ray, um seine größten Modelle zu trainieren. Brockman beschreibt Ray als entwicklerfreundlich und hebt als Vorteil eines solchen Drittanbieter-Tools hervor, dass die Wartung nicht in OpenAIs eigene Verantwortung fällt. Das schone die Ressourcen. Für OpenAI gehört Ray offenbar zur grundlegenden Infrastruktur.

Wer bereits mit Ray 1.0 hantiert und seine Version aktualisieren möchte, findet Orientierung im Migrationsleitfaden zu Ray 2.0. Weitere Details lassen sich der Releasemeldung auf GitHub entnehmen, die alle technischen Neuerungen auflistet. Wer tiefer einsteigen mag, kann einen Blick in die Dokumentation zu Ray 2.0 werfen. Dort bietet das Ray-Team auch einen Überblick für Anfänger und führt Schritt für Schritt in die Nutzung des Frameworks und seiner Komponenten ein. Allgemeine Infos finden sich auf der Website des Ray-Projekts.

(sih)