Spark-Plattform: Databricks Runtime 4.2 bereitet auf neue Funktionen vor

Im Vorfeld der geplanten General Availability von Databricks Delta veröffentlicht das Unternehmen ein Update der Databricks Runtime auf Version 4.2.

In Pocket speichern vorlesen Druckansicht
Spark-Plattform: Databricks Runtime 4.2 bereitet auf neue Funktionen vor

(Bild: Databricks)

Lesezeit: 2 Min.

Das von den Apache-Spark-Machern gegründete Unternehmen Databricks bereitet die Veröffentlichung des nächsten GA-Release der Cloud-Data-Lakes-Managementplattform Databricks Delta vor. Dazu liefert das Unternehmen zunächst ein Update der auf Apache Spark 2.3.1 basierenden Databricks Runtime auf Version 4.2 aus. Die Software integriert nicht nur die letzten Neuerungen von Spark, sondern schafft auch die Voraussetzungen für die in Databricks Delta geplanten neuen Funktionen und Leistungsverbesserungen. Überarbeitet werden unter anderem das direkte Streaming in die Delta Tables sowie die Pfadkonsistenz bei Kommandos und Abfragen in Databricks Delta.

Mittels df.writeStream.table(…) können Entwickler künftig Streams direkt in die Databricks Delta-Tabellen schreiben, die im Hive-Metastore registriert sind. Für die Verknüpfung von Commands und Queries mit den Tables lässt sich im nächsten Release einfach der zugehörige Pfad via delta.`/path/to/table` als Identifier heranziehen. Darüber hinaus fließen einige Neuerungen in die Stream-Processing-API Structured Streaming ein, die seit Spark 2.2 produktionsreif zur Verfügung steht. Der Einsatz von Trigger.once soll beispielsweise zur Stabilisierung der Data Pipelines beitragen und sicherstellen, dass sämtliche verfügbaren Daten verarbeitet werden. Die bisher übliche Methode, Datenraten per maxOffsetsPerTrigger oder maxFilesPerTrigger zu limitieren, führte immer wieder dazu, dass nur ein Teil der Daten verarbeitet wurde.

Einen detaillierteren Überblick aller Neuerungen in der Databricks Runtime 4.2 findet sich in den jeweiligen Release Notes für die Plattformen Azure und Amazon Web Services. (map)