Big Data: Delta Lake landet bei der Linux Foundation

Databricks übergibt das Open-Source-Projekt zum Verwalten von Data Lakes an das gemeinnützige Konsortium.

In Pocket speichern vorlesen Druckansicht 1 Kommentar lesen
Big Data: Delta Lake landet bei der Linux Foundation
Lesezeit: 2 Min.
Von
  • Rainald Menge-Sonnentag

Das auf Big-Data-Anwendungen spezialisierte Unternehmen Databricks hat das Delta-Lake-Projekt an die Linux Foundation übergeben. Das Projekt soll die Verwaltung von Data Lakes zum Verarbeiten von Streaming- und Batch-Daten vereinfachen. Mit der Übergabe möchte Databricks die herstellerneutrale Weiterentwicklung von Delta Lake sicherstellen und eine breite Community für das Projekt gewinnen.

Die erste Vorstellung von Delta Lake erfolgte im Rahmen des Spark+AI Summit im April. Databricks ist maßgeblich an der Entwicklung von Apache Spark beteiligt und zählt die ursprünglichen Spark-Entwickler zu seinen Gründern. Delta Lake ist ein quelloffener Storage-Layer über Data Lakes, die in Hadoop, bei Amazon Web Services oder als Azure Data Lake Storage existieren.

Delta Lake arbeitet die eingehenden Daten für die weitere Analyse auf.

(Bild: Databricks)

Die Schicht ermöglicht ACID-Transaktionen für Apache Spark und bereitet Streaming- und Batch-Daten für die Weiterverarbeitung auf. Die Daten sind im Apache-Parquet-Format gespeichert. Entwickler können sie über DML-Befehle (Data Manipulation Language) wie UPDATE, DELETE und MERGE INTO bearbeiten.

Für eine saubere Struktur lässt sich ein Schema einsetzen und erzwingen, um sicherzustellen, dass die Datentypen passen und alle benötigten Spalten vorhanden sind.

Der Begriff Data Lake geht auf den Pentaho-Gründer James Dixon zurück. Das Konzept ist auf große Analysesysteme ausgelegt. Die Daten fließen zunächst unverarbeitet in den Lake und dürfen sich dort verändern. Der Name rührt daher, dass der See die Daten aus zahlreichen Zuflüssen aufnimmt und dabei strukturierte mit unstrukturierten und Rohdaten vereint. Mit dem Begriff ist keine spezifische Technik zum Speichern der Daten verbunden.

Ein Vorteil an der Arbeitsweise ist, dass Administratoren vorab keine Formate oder Strukturen definieren müssen. Allerdings müssen sie dabei darauf achten, dass sie die Daten weiterhin verwalten können und im Zugriff halten. Haben sie keine Kontrolle oder nur schlechten Zugriff auf den Data Lake, spricht man passenderweise von einem Data Swamp – der See ist in dem Fall versumpft.

Tatsächlich stellt der geordnete Zugriff sowie die Optimierung der Daten eine große Herausforderung beim Anlegen und Verwalten von Data Lakes dar. Databricks möchte mit Delta Lake die Verwaltung vereinfachen. Die weitere Entwicklung bei der Linux Foundation unter einem Open-Governance-Modell ist der konsequente Schritt, um eine breite Community zu erreichen. (rme)