Amazon startet Dienst für Data Lakes

Die AWS Lake Formation, ein verwalteter Cloud-Dienst zum Anlegen und Verwalten von Data Lakes, ist nun allgemein verfügbar.

11

09.08.2019, 10:07 Uhr

Lesezeit: 3 Min.

Developer

Von

Rainald Menge-Sonnentag

Auf Amazon Web Services ist nun das Angebot AWS Lake Formation allgemein verfügbar. Amazon hatte den Dienst im Rahmen der re:Invent 2018 angekündigt. Er bietet verwaltete Data Lakes in Amazons Cloud-Plattform. AWS berechnet die üblichen Gebühren für die zugrundeliegenden Dienste zum Speichern und Übertragen der Daten, stellt den Dienst aber kostenfrei zur Verfügung.

Im Rahmen der ersten Ankündigung von AWS Lake Formation auf der re:Invent im November 2018 sprach Amazon von 10.000 Data Lakes, die auf Amazon Simple Storage Service (S3) liegen. Der neue Dienst automatisiert die Installation und Verwaltung der Seen und hilft Kunden beim Aufbereiten der Daten, bevor sie in den Data Lake fließen. Schließlich bietet AWS spezielle Sicherheitsfunktionen.

Der Datensee mit seinen Zu- und Abflüssen

Als Quellen kommen relationale oder NoSQL-Datenbanken sowie weitere S3-Instanzen in Frage. AWS Lake Formation bietet einen Source Crawler, der sich um die Beschaffung der Daten kümmert. Im Data Lake organisiert der Dienst die Eingänge nach häufigen Abfragebegriffen und teilt sie in Datenblöcke auf, die eine effiziente Verarbeitung gewährleisten sollen. AWS Lake Formation nutzt Machine Learning zum Deduplizieren und zum Auffinden von Daten, die zwar unterschiedlich sind, aber auf dasselbe verweisen.

Die im Data Lake gespeicherten Daten lassen sich an Amazon Redshift, Athena, AWS Glue oder Amazon Elastic MapReduce (EMR) zur weiteren Verarbeitung übergeben. Letzteres befindet sich zum Start des Diensts noch in der Betaphase. Eine Aufbereitung mit Amazon QuickSight und SageMaker soll in den nächsten Monaten folgen. Der Zugriff auf den Data Lake lässt sich unter anderem über AWS Identity and Access Management und AWS Key Management regeln.

Ein Sammelbecken für alle Daten

Der Begriff Data Lake geht auf den Pentaho-Gründer James Dixon zurück. Das Konzept ist auf große Analysesysteme ausgelegt. Die Daten fließen zunächst unverarbeitet in den Lake und dürfen sich dort verändern. Der Name rührt daher, dass der See die Daten aus zahlreichen Zuflüssen aufnimmt und dabei strukturierte mit unstrukturierten und Rohdaten vereint. Mit dem Begriff ist keine spezifische Technik zum Speichern der Daten verbunden.

Ein Vorteil an der Arbeitsweise ist, dass Administratoren im Vorfeld keine Formate oder Strukturen definieren müssen. Allerdings müssen sie dabei darauf achten, dass sie die Daten weiterhin verwalten können und im Zugriff halten. Haben sie keine Kontrolle oder nur schlechten Zugriff auf den Data Lake, spricht man passenderweise von einem Data Swamp – der See ist in dem Fall versumpft.

Tatsächlich stellt der geordnete Zugriff sowie die Optimierung der Daten eine große Herausforderung beim Anlegen und Verwalten von Data Lakes dar. Ebendiese Schwierigkeiten will Amazon nun mit dem neuen Angebot adressieren. Weitere Details lassen sich der Ankündigung entnehmen. (rme)