Machine Learning: Databricks gibt AutoML für den uneingeschränkten Einsatz frei
Der in die Databricks-Plattform integrierte Dienst AutoML soll Data Scientists helfen, ML-Modelle schneller produktionsreif zu entwickeln.
Databricks, Anbieter der Lakehouse-Architektur, die die Vorteile von Data Lakes und Data Warehouses vereint, gibt die freie Verfügbarkeit (General Availability) von AutoML als integralem Bestandteil seiner organisations- und teamübergreifenden Machine-Learning-Plattform bekannt. AutoML ist darauf zugeschnitten, die zahlreichen notwendigen Schritte bei der ML-Modell-Entwicklung und dem Training weitgehend zu automatisieren. Databricks verfolgt dabei einen Low-Code-Ansatz, sodass sich AutoML nicht nur an erfahrene Fachleute richtet, sondern auch Data-Science-Einsteigern gezielte Unterstützung verspricht.
Automatisch von den Daten zum produktionsreifen Modell
Vor rund einem Jahr hatte das Unternehmen im Rahmen seines Data + AI Summit den offiziellen Start von Databricks Machine Learning angekündigt. Seither stand die Plattform Data Engineers, Data Scientists und Product Ownern für die gemeinsame Arbeit an ML-Projekten als Private Preview offen – inklusive der Funktionen Databricks AutoML und Databricks Feature Store. Ab sofort gilt die Preview-Phase als abgeschlossen und AutoML lässt sich offiziell für den produktiven Einsatz nutzen. Der Dienst baut auf dem bereits 2019 erstmals vorgestellten Open-Source-Projekt "Databricks Labs AutoML" auf, das auf GitHub frei verfügbar ist. Das Toolkit basiert auf Apache Spark ML und zielt auf den Bereich des Supervised Learning (überwachtes Lernen) ab – es bietet unter anderem Methoden zum Bereinigen (Feature Clean-up) sowie Vektorisieren von Merkmalen (Feature Vectorization).
Der in die Databricks-Plattform integrierte kommerzielle Dienst Databricks AutoML verspricht zudem umfassende Hilfestellung beim Entwickeln und Trainieren beliebiger ML-Modelle aus den Anwendungsfeldern Klassifizierung, Regression und Vorhersage. Im Lakehouse hinterlegte Daten sollen sich in wenigen Schritten für das Training eines Modells nutzen und als Notebook bereitstellen lassen. Dazu erstellt AutoML Modelle auf Grundlage von Algorithmen wie scikit-learn (Decision Trees, Random Forests, Logistic und Linear Regression), XGBoost und LightGBM. Für Vorhersagemodelle kommen Prophet oder Auto-ARIMA zum Einsatz.
Transparent und konfigurierbar
Beim automatischen Training der Modelle liefert AutoML auch Performancedaten für unterschiedliche Algorithmen, sodass Nutzerinnen und Nutzer rasch den am besten geeigneten für die jeweilige Fragestellung finden können. Dank Integration mit dem Lebenszyklus-Management-Tool MLflow lässt sich anschließend das bevorzugte Modell zum Deployment an die MLflow Model Registry übergeben und als REST-Endpunkt auf der Databricks-Plattform bereitstellen.
Auf diese Weise lassen sich mit AutoML rasch und ohne aufwendige Programmierung einfache ML-Modelle in den produktiven Betrieb bringen. Data Scientists und Machine-Learning-Profis behalten dank des anpassbaren Codes der erstellten Notebooks jedoch jederzeit die Freiheit, ihre Modelle zu verfeinern und nachzujustieren. Databricks spricht in diesem Zusammenhang außerdem von einem transparenten Ansatz (Glass Box Approach), da die editierbaren Notebooks die generierten Modelle nachvollziehbar machten und sich dadurch Auditierungs- und Compliance-Anforderungen erfüllen ließen.
Weitergehende Informationen zu Databricks AutoML finden sich in der Ankündigung der General Availability (GA) sowie in der Dokumentation auf der AutoML-Website. Wer den Dienst für automatisiertes Machine Learning zunächst näher kennenlernen möchte, kann dies im Rahmen einer kostenlosen Testphase tun.
(map)