Carsten Lux: "Data Lineage dreht den ETL-Prozess um"

Seite 2: ETL meets Data Lineage

Inhaltsverzeichnis

heise Developer: Wie funktioniert der ETL-Prozess in einem Data Warehouse und was sind dabei die kritischen Aspekte für Data Lineage?

Lux: Kommen Daten aus einem Source-System, sind sie über verschiedene Ebenen zu transportieren. Für den Prozess gibt es unterschiedliche Möglichkeiten wie ETL-Tools, selbst geschriebene Programme zur Übermittlung oder File-Transfer-Protokolle. Um genau zu erkennen, was passiert, wenn die Daten die Ebenen wechseln, stehen innerhalb des ETL-Prozesses verschiedene Methoden wie Filterung, Harmonisierung, Aggregation und Anreicherung der Daten zur Verfügung. Anhand von Filterkriterien lassen sich Daten für die weitere Verarbeitung aussondern.

Bei der Harmonisierung geht es darum, die Kodierungen der Daten zu vereinheitlichen und die Informationen themenspezifisch anzuordnen, beispielsweise nach Kunde oder Projekt. Bei der Aggregation bündeln Algorithmen die Daten. Über einen fachlichen Schlüssel werden die Aggregationsfunktionen festgelegt. Gerade im betriebswirtschaftlichen Kontext müssen Daten oft summiert werden. Beim vierten Schritt, der Anreicherung, erfolgt die Berechnung der betriebswirtschaftlichen Kenngrößen und Integration in die Datenbasis. Ein Beispiel, das die Schritte zusammenfasst, ist das Zusammenrechnen von Umsatzzahlen in unterschiedlichen Währungen. Sie müssen erst in eine einheitliche Währung umgerechnet werden, bevor sie summiert werden können.

Bei der Erkennung und Analyse der Datenflüsse ergibt sich das Problem, dass verschiedene Techniken zum Einsatz kommen. Darüber hinaus wird auch Programmcode in den RDBM-Systemen zur Transformation der Daten verwendet. Ein Tool, das die Data Lineage vollständig darstellen soll, muss also nicht nur ETL-Tools analysieren können, sondern auch diverse Programmiersprachen und eingebetteten Programmcode beherrschen.

heise Developer: Wie lassen sich letztlich Aussagen über den Weg der Daten durch die Systeme konkret ableiten?

Lux: Wenn alle Metadaten erfasst sind und klar ist, was beim Wechsel zwischen den Architekturebenen passiert, lässt sich herausfinden, welchen Weg ein Attribut durch das IT-System genommen hat. Das Prinzip besteht darin, ein Attribut mit weiteren Attributen über Datenflüsse hinweg zu verknüpfen. Das Ergebnis ist ein Netz von Korrelationen über Architekturgrenzen hinweg. So lässt sich beispielsweise erkennen, wie Daten gebündelt wurden.

heise Developer: Wie werden die Erkenntnisse über die Metadaten letztlich verwertet?

Lux: Die abschließende Ausführung der Prozesse, die zum Löschen, Verändern oder Anonymisieren von Daten notwendig sind, lassen sich nicht über eine Data-Intelligence-Anwendung realisieren. Hier ist das Enterprise-Content-Management-System gefragt. Damit lassen sich durch eine Richtlinienverwaltung Content archivieren, Abfragen durchführen, Aufzeichnungen verwalten und Daten löschen. Darüber hinaus lassen sich Identitäten durch Maskierung in Dokumenten verbergen und so schützen. Erst wenn Unternehmen sowohl Data-Intelligence-Techniken als auch ein Content-Management-System nutzen, können sie Compliance-Konformität einfach und unkompliziert umsetzen. (map)