Data Lakes: Databricks bindet VS Code und dbt-Projekte nahtlos ein
Mit Databricks Workflows lassen sich Datentransformationsprojekte organisieren und Entwickler erhalten über VS Code direkten Zugriff auf Databricks-Cluster.
Databricks kündigt eine auf Entwicklungsteams zugeschnittene neue Erweiterung für den Sourcecode-Editor VS Code an und gibt die allgemeine Verfügbarkeit (General Availability) von Funktionen zum Organisieren von dbt-Datentransformationsprojekten mit Databricks Workflows bekannt.
Developer-Tools für das Lakehouse
Der Anbieter der Lakehouse-Architektur will es Entwicklerinnen und Entwicklern künftig vereinfachen, ihren Code nahtlos in Databricks-Cluster einzubinden, um etwa Datenabfragen, -analysen oder das Training von ML-Modellen durchzuführen. Ein dediziertes Developer-Team bei Databricks arbeitet daran, die Zusammenarbeit zwischen der Lakehouse-Plattform und den unter Entwicklern verbreiteten IDEs zu verbessern. In einem ersten Schritt veröffentlicht Databricks dazu nun eine Erweiterung für Visual Studio Code. Bei der Arbeit an ihrem Code können Entwicklerinnen und Entwickler den kompletten Leistungsumfang des Codeeditors nutzen (CI/CD, Unit-Tests, Versionskontrolle etc.), über die autorisierte Anbindung an Databricks-Cluster aber auch Code remote ausführen und plattformspezifische Funktionalitäten einbinden.
Sämtliche Databricks-Objekte lassen sich damit direkt aus VS Code heraus mit den aus der Softwareentwicklung vertrauten Best Practices bearbeiten und einsetzen. Die Erweiterung steht über den Visual Studio Marketplace ab sofort zur Verfügung. Vergleichbare Extensions und Tools für andere Entwicklungsumgebungen sollen folgen. Mehr Details dazu fasst der Blogbeitrag zusammen.
dbt-Projekte mit Databricks Workflows organisieren
Im Oktober 2022 hatte Databricks angekündigt, dass sich das Lakehouse-Orchestrierungswerkzeug Databricks Workflows zum Verwalten von Datentransformationsprojekten mit dem Data Build Tool (dbt) einsetzen lässt – zunächst allerdings noch im Rahmen einer Public Preview. Nachdem die Testphase offensichtlich erfolgreich abgeschlossen werden konnte, ist die Funktion ab sofort allgemein verfügbar (General Availability), sowohl für SQL Pro Warehouses als auch wie bisher schon für deren Serverless-Variante.
Ausgehend von einem Git-Repository für das dbt-Projekt und den mit SQL transformierten Daten lassen sich Daten- und Machine-Learning-Pipelines auf der Lakehouse-Plattform überwachen und verwalten. Über das Management der dbt-Jobs hinaus stellt Databricks Workflows auch den reibungslosen Betrieb sicher, löst bei Fehlern Warnmeldungen aus, und bietet die Möglichkeit, gescheiterte Durchläufe zu reparieren und erneut anzustoßen. Weitergehende Informationen zur Installation, der Dokumentation sowie Beispielprojekten liefert der Blogbeitrag von Databricks.
(map)