Machine Learning: MLflow 1.1 legt bei Logging und Tracking nach

Das Open-Source-Projekt macht auch die ersten Schritte hin zur Ausführung von Projektcode als Kubernetes Job.

In Pocket speichern vorlesen Druckansicht
MLflow nimmt sich des Lebenszyklus-Managements von Machine-Learning-Projekten an
Lesezeit: 2 Min.
Von
  • Matthias Parbel

Die auf das Lebenszyklus-Management von Machine-Learning-Projekten ausgelegte Plattform MLflow legt nun Version 1.1 vor. Nachdem das von Apache-Spark-Schöpfer Databricks initiierte Open-Source-Projekt erst im Juni – rund ein Jahr nach seiner ersten Ankündigung – den produktionsreifen Release-Status 1.0 erreicht hatte, haben die Macher unter anderen Verbesserungen bei der Komponente MLflow Tracking nachgereicht. Für Trainingsdurchläufe mit TensorFlow oder Keras bietet MLflow automatisches Logging von Metriken, Parametern und Modellen, ohne dass Änderungen am Code notwendig seien. Die neue Funktion mlflow.tensorflow.autolog() gilt jedoch noch als experimentell.

Überarbeitet wurden außerdem die in MLflow Tracking bereitstehenden APIs. Neben verschiedenen Verbesserungen der Search API bietet die neue auf Pandas basierende mlflow.search_runs API die Möglichkeit, Ergebnisse einer Suche als Pandas Dataframe auszugeben. Das soll Anwendern den Vergleich mehrerer Durchläufe in einem Experiment erleichtern. Die ebenfalls neue Java fluent API stellt einen Satz von APIs zur Verfügung, die als übergeordnete Schnittstelle das Erstellen und Protokollieren von MLflow-Durchläufen ermöglicht – im Unterschied zur bisher allein verfügbaren Low-Level-API MlflowClient, die lediglich als Wrapper der REST APIs diente.

Auf dem Weg, den schon für frühere Versionen angekündigten Ausbau der Unterstützung von Kubernetes voranzutreiben, haben die MLflow-Macher nun einen entscheidenden Schritt gemacht: MLflow erhält Zugriff auf das Execution Backend von Kubernetes. Dadurch lässt sich der Code Docker-basierter MLflow-Projekte künftig als Kubernetes Job ausführen und der Bearbeitungsfortschritt periodisch überwachen. Anwendern stehen damit die flexibel nutzbaren und von Kubernetes verwalteten Computing-Ressourcen zur Verfügung – vorläufig jedoch nur im Rahmen einer experimentellen Funktion.

Eine vollständige Zusammenfassung aller Neuerungen sowie mehr Details liefern die Release Notes zu MLflow 1.1 auf GitHub. Darüber hinaus finden sich generelle Informationen zu der Plattform auf der Website des Open-Source-Projekts. (map)