Carsten Lux: "Data Lineage dreht den ETL-Prozess um"

Wie Fachbereiche und Entwickler in den Unternehmen die Herausforderungen der Datenflussanalyse und das Data Lineage meistern, erklärt Carsten Lux von ASG Technologies im Gespräch mit heise Developer.

In Pocket speichern vorlesen Druckansicht 3 Kommentare lesen
Carsten Lux: "Data Lineage dreht den ETL-Prozess um"

(Bild: pixabay)

Lesezeit: 5 Min.
Von
  • Matthias Parbel
Inhaltsverzeichnis

heise Developer: Herr Lux, die Digitalisierung bringt eine zunehmend größere Datenflut mit sich. Welche Herausforderungen ergeben sich daraus für Unternehmen?

Carsten Lux: Es ist in der Tat so, dass Unternehmen mit immer mehr Datenquellen und größeren Datenvolumen zurechtkommen müssen. Dadurch wird es auch zunehmend schwieriger, den Überblick über die Datenverläufe zu behalten. Das wirkt sich sowohl auf die Compliance-Konformität als auch die Geschäftsprozesse der Unternehmen aus. Die Datenschutzgrundverordnung (DSGVO) ist wahrscheinlich die bekannteste Richtlinie. Aber in manchen Branchen sind bis zu 15 Richtlinien zu erfüllen.

heise Developer: Vor welchen konkreten Problemen stehen Unternehmen beim Thema Compliance?

Lux: Nehmen Sie beispielsweise den Fall, dass Unternehmen Datenflüsse innerhalb eines Data Warehouse transparent machen wollen, um genau belegen zu können, welchen Weg die Informationen durch das Unternehmen genommen haben – sprich, wer die Daten wann und wie verarbeitet hat. Anstrengungen, diese Prozesse händisch nachzuverfolgen, sind früher oder später zum Scheitern verurteilt. Um die Beziehungen zwischen Datenelementen im gesamten Unternehmen nachvollziehbar zu machen, sind Data-Intelligence-Techniken wie Data Lineage unverzichtbar.

heise Developer: Ist Data Lineage auch für Entwickler relevant?

Lux: Nicht nur für die verschieden Fachbereiche eines Unternehmens ist Data Lineage von besonderer Bedeutung, sondern auch für die Software- und Datenbank-Entwicklungsabteilungen. Data Lineage ist heute nicht nur als "Herkunftsanalyse" zu verstehen, sondern umfasst die Auswertung des Datenflusses in jede beliebige Richtung. Die früher als Impact-Analyse bezeichnete "Auswirkungsanalyse einer Änderung" heißt heute vielfach Forward Lineage.

Carsten Lux arbeitet als Account Executive Enterprise Data Intelligence Solutions bei ASG Technologies. Das Unternehmen versteht sich als Anbieter von Software in den Bereichen IT-Systems-Management und Informationsmanagement, mit denen Kunden ihre Daten von der Erfassung über die Analyse bis hin zur Verarbeitung verwalten können.

Auch der Auswertung der Zusammenhänge zwischen technischen Datenfeldern in Programmen und Datenbanken und der fachlichen Beschreibung als Business Term und Critical Data Element (CDE) sowie der Zuweisung des Data Owner kommt immer größere Bedeutung zu. Die für Entwickler und Fachbereiche verfügbare Information und Transparenz erhöht das Verständnis zwischen den Abteilungen und vermeidet teure Missverständnisse in Projekten.

heise Developer: Was sind die technischen Voraussetzungen für Compliance-Konformität?

Lux: Die IT-Infrastruktur muss darauf ausgerichtet sein. Grundsätzlich sind Content- und Data-Intelligence-Systeme nötig, um beispielsweise Anforderungen der DSGVO zu erfüllen. Eine Data-Intelligence-Anwendung ist für das Metadatenmanagement, also die Verwaltung der Informationen über Merkmale anderer Daten zuständig. Kommen also beispielsweise in einem Data Warehouse Informationen aus unterschiedlich strukturierten Datenquellen zusammen, erfolgt das durch den ETL-Prozess: dem Extrahieren, Transformieren und Laden der Daten. Beim Thema Data Lineage geht es darum, den ETL-Prozess umzudrehen und in umgekehrter Weise nachzuvollziehen. Hierbei gilt es, alle im Datenfluss vorhandenen Systeme zu betrachten und zu analysieren.

heise Developer: Wie funktioniert der ETL-Prozess in einem Data Warehouse und was sind dabei die kritischen Aspekte für Data Lineage?

Lux: Kommen Daten aus einem Source-System, sind sie über verschiedene Ebenen zu transportieren. Für den Prozess gibt es unterschiedliche Möglichkeiten wie ETL-Tools, selbst geschriebene Programme zur Übermittlung oder File-Transfer-Protokolle. Um genau zu erkennen, was passiert, wenn die Daten die Ebenen wechseln, stehen innerhalb des ETL-Prozesses verschiedene Methoden wie Filterung, Harmonisierung, Aggregation und Anreicherung der Daten zur Verfügung. Anhand von Filterkriterien lassen sich Daten für die weitere Verarbeitung aussondern.

Bei der Harmonisierung geht es darum, die Kodierungen der Daten zu vereinheitlichen und die Informationen themenspezifisch anzuordnen, beispielsweise nach Kunde oder Projekt. Bei der Aggregation bündeln Algorithmen die Daten. Über einen fachlichen Schlüssel werden die Aggregationsfunktionen festgelegt. Gerade im betriebswirtschaftlichen Kontext müssen Daten oft summiert werden. Beim vierten Schritt, der Anreicherung, erfolgt die Berechnung der betriebswirtschaftlichen Kenngrößen und Integration in die Datenbasis. Ein Beispiel, das die Schritte zusammenfasst, ist das Zusammenrechnen von Umsatzzahlen in unterschiedlichen Währungen. Sie müssen erst in eine einheitliche Währung umgerechnet werden, bevor sie summiert werden können.

Bei der Erkennung und Analyse der Datenflüsse ergibt sich das Problem, dass verschiedene Techniken zum Einsatz kommen. Darüber hinaus wird auch Programmcode in den RDBM-Systemen zur Transformation der Daten verwendet. Ein Tool, das die Data Lineage vollständig darstellen soll, muss also nicht nur ETL-Tools analysieren können, sondern auch diverse Programmiersprachen und eingebetteten Programmcode beherrschen.

heise Developer: Wie lassen sich letztlich Aussagen über den Weg der Daten durch die Systeme konkret ableiten?

Lux: Wenn alle Metadaten erfasst sind und klar ist, was beim Wechsel zwischen den Architekturebenen passiert, lässt sich herausfinden, welchen Weg ein Attribut durch das IT-System genommen hat. Das Prinzip besteht darin, ein Attribut mit weiteren Attributen über Datenflüsse hinweg zu verknüpfen. Das Ergebnis ist ein Netz von Korrelationen über Architekturgrenzen hinweg. So lässt sich beispielsweise erkennen, wie Daten gebündelt wurden.

heise Developer: Wie werden die Erkenntnisse über die Metadaten letztlich verwertet?

Lux: Die abschließende Ausführung der Prozesse, die zum Löschen, Verändern oder Anonymisieren von Daten notwendig sind, lassen sich nicht über eine Data-Intelligence-Anwendung realisieren. Hier ist das Enterprise-Content-Management-System gefragt. Damit lassen sich durch eine Richtlinienverwaltung Content archivieren, Abfragen durchführen, Aufzeichnungen verwalten und Daten löschen. Darüber hinaus lassen sich Identitäten durch Maskierung in Dokumenten verbergen und so schützen. Erst wenn Unternehmen sowohl Data-Intelligence-Techniken als auch ein Content-Management-System nutzen, können sie Compliance-Konformität einfach und unkompliziert umsetzen. (map)