Meta- und Stammdaten: OpenLineage rückt in die Sandbox der Linux Foundation
OpenLineage soll einen offenen Standard zum Erfassen von Meta- und Stammdaten setzen, um die Steuerung von KI- und Datenprojekten zu vereinfachen.
- Matthias Parbel
Das Open-Source-Projekt OpenLineage darf sich ab sofort in der Sandbox der LF AI & Data Foundation bewähren. OpenLineage geht zurück auf eine Entwicklung des auf DataOps spezialisierten Unternehmens Datakin und soll einen offenen, industrieübergreifenden Standard definieren, der das Erfassen und Verarbeiten von Meta- und Stammdaten auch in komplexeren KI- und Datenprojekten über eine API zur Laufzeit erleichtert.
OpenLineage definiert ein generisches Modell von Run-, Job- und Datensatz-Entitäten, die sich anhand einer konsistenten Benennungsstrategie identifizieren lassen, wie im nachfolgenden Schaubild skizziert. Die Entitäten des grundlegenden Modells lassen sich bei Bedarf zudem durch weitere Aspekte anreichern.
Um die Nachvollziehbarkeit der Herkunft von Daten (Data Lineage) in übergreifenden Projekten einfacher gewährleisten zu können, schafft OpenLineage eine zentrale Integrationsinstanz zwischen Data Warehouses, Analyse-Tools und SQL-Engines auf der einen Seite sowie angebundenen Projekten wie der Data-Discovery- und Metadaten-Engine Amundsen oder dem ebenfalls auf Datakin zurückgehenden Metadatendienst Marquez auf der anderen Seite.
Lesen Sie auch
Carsten Lux: "Data Lineage dreht den ETL-Prozess um"
Weitergehende Informationen zu OpenLineage finden sich in der Ankündigung der LF AI & Data Foundation sowie auf der Projektwebsite bei GitHub.
(map)