Generative KI: Databricks serviert ML-Modelle direkt aus dem Data Lake
Mit Databricks Model Serving können Data Scientists Machine-Learning-Modelle direkt aus der Lakehouse-Architektur in Echtzeit bereitstellen.
Das von den Apache-Spark-Schöpfern gegründete Unternehmen Databricks bietet mit dem Open-Source-Projekt MLflow eine Plattform für das Lebenszyklus-Management von Machine-Learning-Projekten. Sie bietet direkte Anbindung an die Databricks Lakehouse-Architektur – die Data Warehouses mit Data Lakes verbindet – und stellt Data Scientist relevante Werkzeuge für die Arbeit mit ML-Modellen zur Verfügung. Um auf Basis dieser Plattform noch einfacher ML-Modelle für Echtzeitanwendungen in Bereichen wie Betrugserkennung, Chatbots für den Kundendienst oder auch personalisierte Empfehlungen im E-Commerce bereitstellen zu können, kündigt das Unternehmen die generelle Verfügbarkeit (GA) von Databricks Model Serving an.
Im Lakehouse integriert mit MLflow, Unity Catalog und Feature Store
Der neue Serverless-Dienst ist in die Lakehouse-Architektur eingebettet und deckt dank Integration mit MLflow, dem Unity Catalog sowie dem Feature Store den gesamten ML-Prozess ab. Von der Vorbereitung der Daten über das Feature-Engineering bis hin zu Training, dem Bereitstellen als REST API und Überwachen der ML-Modelle lassen sich mit Databricks Model Serving sämtliche Prozessschritte auf einer Plattform verwalten. Erklärtes Ziel des neuen Angebotes ist es, Data Science-Teams in die Lage zu versetzen, neue ML-Echtzeitanwendungen schneller produktionsreif in den Betrieb nehmen zu können, damit Unternehmen insbesondere auch von den Möglichkeiten generativer KI wie etwa ChatGPT gezielter profitieren können.
Databricks Model Serving setzt dazu auf den Model-Serving-Funktionen von MLflow auf und nutzt dessen Model Registry für das automatisierte Deployment. Beim Modelltraining festgelegte Features fließen über die Integration mit dem Feature Store ebenfalls automatisiert in die Inferenz ein und als zentrale Governance-Instanz unterstützt der Unity Catalog beim Verwalten und Kontrollieren sämtlicher Daten und ML-Modell-Komponenten. Funktionen zur Diagnose und Qualitätssicherung, die bei der Fehlersuche in Modellen und der Überwachung helfen, will Databricks in künftigen Updates von Model Serving ergänzen. Auch das Erstellen von Datensätzen für das Modelltraining sollen Data Scientists dann über den Serverless-Dienst anstoßen können.
Mehr Informationen zu dem neuen Angebot finden sich im Blogbeitrag zur AnkĂĽndigung sowie in der Dokumentation zu Databricks Model Serving.
(map)