Cloudera möchte einen Standard für Machine-Learning-Prozesse gestalten
Der Softwareanbieter sucht Unternehmen, die sich an der Ausarbeitung eines offenen Standards für MLOps beteiligen.
Der vor allem im Apache-Umfeld starke Softwarehersteller Cloudera hat die Pläne zu einem MLOps-Standard (Machine Learning Operations) angekündigt. Damit sollen sich ML-Projekte in DevOps-Abläufen einheitlich verwalten und steuern lassen. MLOps beschreibt den Lebenszyklus von Machine-Learning-Modellen vom Entwurf bis zur Produktion.
Derzeit mangelt es aus Clouderas Sicht an einheitlichen Prozessen. Santiago Giraldo Anduaga, Product Strategy Manager für Data & Design bei Cloudera, meinte im Gespräch mit heise Developer, dass zahlreiche Cloudera-Kunden das Problem haben, einen einheitlichen, reproduzierbaren Arbeitsablauf für Modelle auf dem Weg vom Entwurf in die Produktion zu finden. Dabei ginge es weniger um die Portabilität der Modelle selbst durch Ansätze wie ONNX, sondern um die Prozessschritte.
Anaconda und Atlas
Cloudera möchte keine eigenen Methoden erstellen, die den MLOps-Prozess steuern, aber mittelfristig mit Methoden anderer Anbieter in Konkurrenz stehe. Daher sucht das Unternehmen nach Mitstreitern und hat eigens eine Mail-Adresse für Interessierte eingerichtet. Wichtig sei, dass von Anfang an viele Unternehmen im ML-Umfeld in die Standardisierung involviert seien. Bisher beteiligt sich unter anderem Anaconda, Red Hat ist laut Anduaga interessiert.
Doug Cutting, Chief Architect bei Cloudera, sieht Apache Atlas als sinnvolle Grundlage für die konkrete Umsetzung. Das Governance- und Metadaten-Framework erfülle alle Voraussetzungen zur Definition von Metadatenobjekten und Governance-Standards. Allerdings wolle er keine feste Basis zwingend vorschreiben. So erwartet Anduaga eher, dass Red Hat nicht auf Atlas setzen würde.
Zur Umsetzung konnte Anduaga noch nichts Konkretes sagen. Wer die Fäden in die Hand nimmt und wie weit das Projekt die offene Beteiligung einer breiten Community erlaube, müsse Cloudera erst noch evaluieren. Ideal sei sicher ein Steering Committee, das die Steuerung übernimmt und aus mehreren Firmen besteht. Ob dann eine Organisation wie die Apache Foundation die Kontrolle erhält, ist noch völlig offen.
Alternativen von Databricks und der Linux Foundation
Eine Ausrichtung auf nur ein Unternehmen möchte Cloudera vermeiden und verweist dabei auf das von Databricks vorangetriebene MLFlow. Die Plattform für das Lifecycle-Management von ML-Projekten ist zwar ebenfalls ein Open-Source-Projekt, aber nach Meinung Anduagas liegt die Kontrolle über die Weiterentwicklung bei einem Unternehmen: Databricks.
Cloudera ist mit seinen Standardisierungswünschen nicht alleine. Derzeit arbeiten einige Mitglieder der Continuous Delivery Foundation (CDF), die unter dem Dach der Linux Foundation steht, an einem ähnlichen Standardisierungsansatz, der aber auch noch so frisch ist, dass Anduaga vor dem Gespräch mit heise Developer nichts davon mitbekommen hatte.
Die Vorbereitungen zum MLOps-Standardisierungsprozess der CDF finden derzeit lediglich in einem GitHub-Repository und einem öffentlich zugänglichen Google Doc statt. Die Ansätze wirken jedoch ähnlich, und die ersten Mitglieder der geplanten Special Interest Group (SIG) stammen aus einigen namhaften Unternehmen, darunter IBM, Google, GitHub, CloudBees und erneut Red Hat. (rme)