Googles neue Datenplattform heißt BigLake

BigLake soll Googles zentrale Datenplattform werden und Analytik strukturierter sowie unstrukturierter Daten unter ein gemeinsames Dach bringen.

In Pocket speichern vorlesen Druckansicht 4 Kommentare lesen
Morgengrauen - Nebel steigt aus einem See

(Bild: Daniel AJ Sokolov)

Lesezeit: 2 Min.

Mit BigLake hat Google auf seinem Data Cloud Summit eine neue Storage Engine vorgestellt. Sie soll cloud-übergreifend strukturierte und unstrukturierte Daten aus diversen Quellen zusammenführen.

Google folgt damit dem erstmals von Databricks verfolgten Ansatz, Data Warehouses und Data Lakes einer als Data Lakehouse bezeichneten, offenen Architektur zu vereinigen. Data Warehouses sind als typische Datensilos in Unternehmen strukturiert und haben meist SQL-Datenbanken als Unterbau, in Data Lakes finden sich vorwiegend unstrukturierte Rohdaten.

BigLake greift bei der Zusammeführung beider Speicherarten auf die Techniken zur Analyse und Datenverwaltung zurück, die BigQuery und Dataplex zur Verfügung stellen und kombiniert diese mit dem Objektspeicher von Google Cloud Storage.

Bisher hatte Google mit BigQuery für Data Warehouses und dem auf Spark und Hadoop aufbauenden Dataproc für Data Lakes getrennte Dienste im Portfolio. Künftig soll BigLake im Zentrum von Googles Datenstrategie stehen.

(Bild: Google)

Google gibt sich mit seiner neuen Data Engine betont offen. BigLake stellt Konnektoren zu Open-Source-Produkten wie Spark, Presto, Trino und Tensorflow zur Verfügung, die Datenspeicherung erfolgt in offenen Formaten wie Parquet oder dem von Apache, Hive oder Hadoop genutzten ORC. Traditionalisten können auch CVS nutzen. Als Speicher für BigLake-Tabellen können neben Google Cloud Storage auch die Cloud-Speicher von AWS und Azure dienen.

Endkunden, zum Beispiel Datenanalysten, sollen dabei nichts mit der eigentlichen Speicherverwaltung zu tun haben. Für die Organisation von Speicherorten, die Vergabe von feingranularen Zugriffsrechten und die zentralisierte Umsetzung von Policies mittels Googles Daten-Mesh Dataplex sind Data-Lake- und Data-Warehouse-Administratoren verantwortlich.

(ulw)