Datenarchitektur: DuckLake vereint Katalog und Tabellenmetadaten

Mit der Spezifikation DuckLake und deren Implementierung eines Lakehouse-Formats treten die DuckDB-Macher gegen OpenTable-Formate wie Iceberg und Co. an.

Artikel verschenken
vorlesen Druckansicht 2 Kommentare lesen
Lesezeit: 12 Min.
Von
  • Matthias Niehoff
Inhaltsverzeichnis

Mit dem Fokus auf Datenanalyse und OLAP-Workloads hat DuckDB Labs die SQL-Datenbank DuckDB als leichte und weniger komplexe Alternative zu etablierten Werkzeugen wie Apache Spark oder pandas entwickelt. Künftig sollen Lakehouse-Formate wichtiger werden, verkündete DuckDB Anfang des Jahres auf seiner Entwicklerkonferenz DuckCon. Viele Anwenderinnen und Anwender von DuckDB erwarteten daraufhin eine bessere Unterstützung für Apache Iceberg und Delta – insbesondere für das Schreiben und nicht nur Lesen.

Stattdessen kündigte DuckDB Labs mit DuckLake aber eine komplett neue Spezifikation inklusive Implementierung eines Lakehouse-Formats an – und damit eine direkte Konkurrenz zu Iceberg und Co..

Mehr zum Thema Datenbank
iX-tract
  • DuckLake unterstĂĽtzt die Trennung von Datenverarbeitung und -speicherung – fĂĽr einfachere Skalierung.
  • FĂĽr schnelle Metadatenzugriffe per SQL-Abfrage greift DuckLake auf Datenbanken wie DuckDB oder PostgreSQL zurĂĽck.
  • DuckLake tritt mit einer einfachen, skalierbaren Architektur gegen OpenTable-Formate wie Apache Iceberg und Delta an.

Im Kern legt die Spezifikation fest, alle Metadaten eines Lakehouse in einer relationalen Datenbank und die eigentlichen Daten wie üblich in einem Blob/Object Store zu speichern. Das Speichern in der relationalen Datenbank soll sowohl Performancevorteile bieten als auch den Weg für neue Funktionen eröffnen.

Das war die Leseprobe unseres heise-Plus-Artikels "Datenarchitektur: DuckLake vereint Katalog und Tabellenmetadaten". Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.