Data Lakehouse: LakeSoul verdichtet Stream- und Batch-Daten automatisch

Das Open-Source-Framework LakeSoul führt in Version 2.3 den Auto Compaction Service ein und rückt in die Sandbox der LF AI & Data Foundation.

In Pocket speichern vorlesen Druckansicht

(Bild: Andrey Armyagov/Shutterstock.com)

Lesezeit: 2 Min.

Die LF AI & Data Foundation, eine Unterorganisation der Linux Foundation, hat das Open-Source-Framework LakeSoul in die Riege ihrer Sandbox-Projekte aufgenommen. LakeSoul, ein von DMetaSoul entwickeltes cloud-natives Lakehouse-Framework, soll sich in der Sandbox mit dem Engagement der LF AI & Data Community sukzessiv weiterentwickeln. Das aktuell in Version 2.3.0 vorliegende Projekt lässt sich zum Aufbau skalierbarer Lakehouse-Systeme mit SQL und Python nutzen, die sowohl für Business-Intelligence- als auch KI-Anwendungen native Datenanbindung bereitstellen.

Zu den LakeSoul-Kernfunktionen zählen unter anderem ein zentraler Metadatenspeicher, ACID-Transaktionen sowie automatische Konfliktauflösung bei nebenläufigen Schreibvorgängen. Der Einsatz von Rust und Arrow beim asynchronen Lesen und Schreiben von Dateien in Objektspeichern und HDFS (Hadoop Distributed File System) soll zudem hohe Performance gewährleisten. In Version 2.3.0 hat das DMetaSoul-Entwicklungsteam LakeSoul um einen globalen Auto Compaction Service ergänzt. Die Funktion soll bei Batch- und Stream-Tasks sicherstellen, dass die Daten automatisch entsprechend der Datenbank komprimiert und Partitionsdaten geschrieben werden, um übermäßigen Ressourcenverbrauch zu vermeiden.

Weitere Neuerungen in LakeSoul 2.3 betreffen den Flink Connector für die Flink-SQL/Table-API. Bei Schreib- und Lesevorgängen im Stream- als auch Batch-Modus greift LakeSoul auf die Changelog-Stream-Semantik von Flink zurück. Überdies lassen sich die Funktionen Upsert und Delete auch auf Zeilenebene verwenden. Um das Anlegen von CDC-Jobs (Change Data Capture) zu vereinfachen, hat das LakeSoul-Team die Flink CDC Ingestion dahingehend überarbeitet, dass sich neue Tabellen und Schemaänderungen nun automatisch aus Nachrichten ableiten lassen.

Weitergehende Informationen zu LakeSoul liefert der Blogbeitrag der LF AI & Data Foundation zur Aufnahme in die Sandbox. Details zu den Neuerungen in Version 2.3.0 finden sich in den Release Notes im GitHub-Repo des Projekts.

(map)