Data Lake Engine Dremio präsentiert AWS-Edition mit Data Lake Insights On-Demand
Die auf Apache Arrow basierende Data Lake Engine ist in einer kostenfreien Version für AWS erschienen und bietet semantische Layer für Self-Service-Abfragen.
- Silke Hahn
Dremio, eine auf Apache Arrow basierende Data Lake Engine zur direkten Datenauswertung aus Data Lakes in der Cloud, ist in einer AWS-Edition erschienen. Besonderheiten dieser Konfiguration für AWS sind offenbar semantische Layer im Self-Service-Prinzip und einige Features zur Beschleunigung von Abfragen.
Speicherort frei wählbar
Grundsätzlich ist diese Data Lake Engine unabhängig von einem bestimmten Cloud-Anbieter und kann neben AWS und Azure auch auf firmeneigenen On-Premises-Clouds aufsetzen. Neben der kommerziellen Variante existiert Dremio in einer freien Community-Version, auch die AWS-Edition ist abgesehen von Enterprise-Security-Features kostenfrei. Die Technologie basiert auf einer nichtmonolithischen Architektur und läuft auf Kubernetes, virtuellen Maschinen oder in der Cloud. Die Engine soll eine elastische Nutzung der Cloud ermöglichen, durch die virtuellen Abzüge der Daten soll laut Anbieter Speicherplatz nach Ressourceneinsatz skaliert werden können.
Dremio setzt direkt auf dem Data Lake auf, ist stateless und unabhängig skalierbar, aggregierte Daten kann die Data Lake Engine zum Beispiel in den Formaten JSON, CSV, Apache Hive, Apache ORC oder Apache Parquet ausgeben. Sie läuft direkt im Konto des Nutzers, wo auch das Deployment stattfindet. Den Speicherort definieren Anwender selbst, wodurch sie stets Zugriff auf die eigenen Daten wahren. So sollten Anwender bei einem Anbieterwechsel ohne Lock-in-Effekt mit ihren Daten umziehen können. Für deutsche Unternehmen dürfte die Anbieterunabhängigkeit von Interesse sein, da die DSGVO für sensible Daten eine Speicherung außerhalb der EU untersagt und daher Data Lakes On-Premises ein bevorzugter Ansatz sind.
Nutzer können auf dem selbst definierten Speicherort Dremio als elastische Auswertungsschicht einziehen. Während die Architektur der Engine auf Apache Arrow basiert, spricht das Interface SQL: Zur Datenanalyse lassen sich zum Beispiel Jupyter Notebooks oder Anwendungen wie Tableau einbinden. Die Engine erstellt virtuelle Kopien des physischen Datensatzes und stellt diese als Layer inklusive Live-Versionierung zur Auswertung bereit. Muss aus Gründen der Data Governance/ DSGVO etwas gelöscht werden, ist nur der virtuelle Layer betroffen, nicht aber der physische Datensatz im Data Lake selbst. Abhängigkeiten der Daten voneinander lassen sich übersichtlich graphisch darstellen, sodass sich auch irrtümliches Löschen von Grunddaten vermeiden lassen sollte.
Von Rohdaten aus dem Datenteich zur Auswertung
Daten liegen in Data Lakes als Rohdaten ohne vordefinierte Struktur (wie sie zum Beispiel eine Datenbank böte) vor und lassen sich nicht mit der Datenbanksprache SQL auslesen. Zur Auswertung bedarf es zum Beispiel Data Warehouses, für die zunächst eine "Bewirtschaftungsstrecke" angelegt werden muss und die die Daten über einen Cube unter anderem in Berichte gießen und an Dashboards ausliefern, oder Data Lake Engines, die die Daten unmittelbarer abrufen und auswerten können.
Dremio liegt zur Zeit in Version 4.2 vor, zum Jahresende 2020 ist die Veröffentlichung von Version 5.0 geplant. Die Entwicklung mit Apache Arrow Flight soll sich derzeit noch in der Betaphase befinden und peilt an, künftig das gRPC-Protokoll zu unterstützen. Weitere Informationen lassen sich der Ankündigung im Dremio-Blog entnehmen. Details zu der AWS-spezifischen Konfiguration stehen auf der Produktseite. Am 21. Mai 2020 bietet Dremio einen Technical Deep Dive an, zu dem Interessierte sich online anmelden können. (sih)