Databricks veröffentlicht ein Toolkit für AutoML

Das Open-Source-Projekt hilft beim Automatisieren von Machine-Learning-Prozessen und setzt auf Apache Spark ML auf.

21.08.2019, 09:44 Uhr

Lesezeit: 3 Min.

Von

Rainald Menge-Sonnentag

Das auf Datenverarbeitung spezialisierte Unternehmen Databricks hat eine Plattform für Automated Machine Learning (AutoML) vorgestellt. Das Databricks Labs AutoML Toolkit hilft Entwicklern und Data Scientists beim Automatisieren von Prozessen in der Verarbeitung von Daten über Machine Learning. Es setzt auf Spark ML auf und kennt zahlreiche Modelltypen.

Die Anbindung an Apache Spark verwundert wenig, da Databricks maßgeblich an der Entwicklung des Frameworks für Cluster Computing beteiligt ist. Das Unternehmen hat zudem mit der Unified Analytics Platform ein Cloud-Angebot im Portfolio, das unter anderem auf Spark aufsetzt.

Methoden und Modelle

Das Open-Source-Projekt Databricks Labs AutoML zielt auf den Bereich des Supervised Learning (überwachtes Lernen) und bietet Methoden zum Bereinigen (Feature Clean-up) und Vektorisieren von Merkmalen (Feature Vectorization). Es hilft bei der Auswahl und dem Training von Modellen sowie bei der Hyperparameteroptimierung. Außerdem erstellt es Batchvorhersagen. Für das Logging von Trainingsdurchläufen und Modellergebnissen nutzt es MLFlow. Die ebenfalls von Databricks initiierte Open-Source-Plattform zum Lifecycle-Management für ML-Projekte ist vor Kurzem in Version 1.1 erschienen.

Auf Basis von Spark ML kennt das AutoML-Toolkit derzeit unter anderem für die Modelltypen Entscheidungsbäume, Gradient Boosted Trees, Random Forest und XGBoost jeweils sowohl Klassifikation als auch Regression, also die Vorhersage von Gruppenzugehörigkeiten beziehungsweise von kontinuierlichen Verläufen. Außerdem bietet es Modelle zur linearen und zur logistischen Regression, für Multi-Layer Peceptron (mehrlagige Perzeptren) Classifier und Support Vector Machine (SVM).

Automatisierung für Machine Learning

Das Konzept AutoML haben zahlreiche Anbieter im Portfolio, darunter Google, das Anfang 2018 Cloud AutoML gestartet hat. Microsoft Research hat ein eigenes AutoML-Team und automatisierte Funktionen in das Framework ML.NET integriert, das im Mai als 1.0-Release erschienen ist. Für Keras existiert die Open-Source-Library AutoKeras, und Facebook bietet in PyTorch ebenfalls Funktionen, unter anderem zum Auto-Tuning.

Databricks möchte mit seinem AutoML-Toolkit Nutzer mit unterschiedlichen technischen Voraussetzungen zusammenbringen, die gemeinsam an ML-Projekten arbeiten. Der Leiter des ML-Projektmanagements Clemens Mewald hat dem Nachrichtenportal Venture Beat in einem Interview erläutert, dass sich mit dem AutoML-Toolkit unterschiedliche Ebenen der Abstraktion abbilden lassen.

Mewald erklärt in dem Gespräch, dass Projektbeteiligte "auf dem höchsten Abstraktionslevel anfangen und keinerlei Code schreiben können. Und wenn sie damit fertig sind und mehr Flexibilität benötigen, gehen sie eine Ebene herunter und bekommen Zugang zu weiteren Knöpfen und Hebeln, die sie brauchen können". Laut Mewald, der zuvor bei Google im TensorFlow- und KubeFlow-Team aktiv war, adressiert Databricks die unterschiedliche Herangehensweise über reinen Code oder eine grafische Nutzerschnittstelle.

Weitere Details zum AutoML-Toolkit lassen sich dem Databricks-Blog entnehmen. Das Projekt ist auf GitHub abgelegt. Dort finden Entwickler zudem eine Anleitung und Referenz. (rme)