Datenverwaltung: Datenqualität von Data Lakes sichern
Metadaten sind für den Umgang mit den in Data Lakes gesammelten Infos wichtig. Bei der Metadatenverwaltung und ihrer Qualitätsüberwachung hilft OpenTelemetry.
- Christian Del Monte
Data Lakes spielen eine groĂźe Rolle bei der On-Demand-Verarbeitung groĂźer Mengen heterogener Daten, die in hoher und zeitlich variabler Geschwindigkeit erzeugt und genutzt werden.
Ein Data Lake beruht dabei auf zwei Grundprinzipien: dem Sammeln und Speichern von Daten im Rohformat und dem Verwalten eines Metadatensystems, das für das Verarbeiten von Analyseabfragen, das Datenqualitätsmanagement und das Data Reasoning unabdingbar ist. Letzteres ist eine Kombination aus statistischem und probabilistischem Denken, wobei der Schwerpunkt dem Verknüpfen abstrakter Muster mit konkreten, messbaren Daten liegt.
Metadaten spielen eine entscheidende Rolle im Data Lake. Ihre Verwaltung ist nicht trivial, da sie dazu neigen, im Laufe der Zeit an Qualität zu verlieren. Das wirkt sich negativ auf die Ergebnisse der Analyseprozesse aus. Um die Qualität von Metadaten zu erhalten, ist es zuerst wichtig zu verstehen, was Metadaten ausmacht, wovon ihre Qualität abhängt und wie sich diese messen lässt.
Das war die Leseprobe unseres heise-Plus-Artikels "Datenverwaltung: Datenqualität von Data Lakes sichern". Mit einem heise-Plus-Abo können sie den ganzen Artikel lesen und anhören.