Databricks Runtime 5.5 beschleunigt den Cluster-Start mit Instance Pools

Warten war gestern: Dank einer flotteren Bereitstellung von virtuellen Maschinen sollen Databricks-Cluster in Zukunft schnell verfügbar sein

In Pocket speichern vorlesen Druckansicht
Databricks Runtime 5.5 beschleunigt den Cluster-Start mit Instance Pools
Lesezeit: 2 Min.
Von
  • Björn Bohn

Das Unternehmen Databricks hat Version 5.5 der Databricks Runtime veröffentlicht. Das neue Release setzt auf Apache Spark 2.4.3 und bietet mit sogenannten Instance Pools ein neues Feature in einer ersten Preview, das die Startzeit von Databricks-Clustern deutlich reduzieren soll. Darüber hinaus erweitert Databricks das Zusammenspiel mit Amazon Web Services (AWS): Delta Lake Tables sind jetzt für Amazon Athena verfügbar, und der Dienst AWS Glue kann nun als Alternative zum Hive Metastore verwendet werden.

Bislang mussten Nutzer der Laufzeitumgebung etwas Geduld beim Starten eines neuen Clusters mitbringen. Zunächst war ein Start von virtuellen Maschinen beim Cloud-Provider notwendig, was wohl ein paar Minuten Zeit kosten konnte. Mit der neuen Instance-Pool-Funktion sollen Entwickler eine Reihe an virtuellen Maschinen zu diesem Zweck bereithalten können, sodass sie direkt einsatzbereit sind. Die Pools sollen nur im Rahmen der Infrastrukturkosten des Cloud-Providers zu Buche schlagen und können wohl auch auf 0 skalieren, wenn keine Workloads vorhanden sind.

Zwei der größeren Neuerungen betreffen die Integration in die Cloud-Plattform AWS. Databricks-Nutzer können mit Version 5.5 der Runtime Delta Lake Tables zum Querying von Presto und Amazon Athena aus nutzen. Das funktioniert ähnlich zu Daten die in Formaten wie Parquet gespeichert sind, das Feature ist über Manifest-Dateien implementiert. Wenn eine externe Tabelle im Hive-Metastoer unter Verwendung von Manifestdateien definiert wird, verwenden Presto und Amazon Athena die Liste der Dateien im Manifest, anstatt die Dateien anhand der Verzeichnisauflistung zu finden.

Darüber hinaus können Anwender nun AWS Glue, einen verwalteten ETL-Service (Extrahieren, Transformieren, Laden) als Alternative zum Hive-Metastore verwenden. Databricks bietet diesbezüglich eine ausführliche Anleitung an.

Eine vollständige Liste der Neuerungen findet sich im Blogbeitrag zum Release. Wer mehr zu den Cloud-spezifischen Änderungen erfahren möchte,, wird in den Release Notes für Microsoft Azure und AWS fündig. (bbo)