Meta- und Stammdaten: OpenLineage rückt in die Sandbox der Linux Foundation

OpenLineage soll einen offenen Standard zum Erfassen von Meta- und Stammdaten setzen, um die Steuerung von KI- und Datenprojekten zu vereinfachen.

(Bild: Scott Prokop / Shutterstock.com)

23.07.2021, 11:37 Uhr

Lesezeit: 1 Min.

Developer

Von

Matthias Parbel

Das Open-Source-Projekt OpenLineage darf sich ab sofort in der Sandbox der LF AI & Data Foundation bewähren. OpenLineage geht zurück auf eine Entwicklung des auf DataOps spezialisierten Unternehmens Datakin und soll einen offenen, industrieübergreifenden Standard definieren, der das Erfassen und Verarbeiten von Meta- und Stammdaten auch in komplexeren KI- und Datenprojekten über eine API zur Laufzeit erleichtert.

Videos by heise

OpenLineage definiert ein generisches Modell von Run-, Job- und Datensatz-Entitäten, die sich anhand einer konsistenten Benennungsstrategie identifizieren lassen, wie im nachfolgenden Schaubild skizziert. Die Entitäten des grundlegenden Modells lassen sich bei Bedarf zudem durch weitere Aspekte anreichern.

Um die Nachvollziehbarkeit der Herkunft von Daten (Data Lineage) in übergreifenden Projekten einfacher gewährleisten zu können, schafft OpenLineage eine zentrale Integrationsinstanz zwischen Data Warehouses, Analyse-Tools und SQL-Engines auf der einen Seite sowie angebundenen Projekten wie der Data-Discovery- und Metadaten-Engine Amundsen oder dem ebenfalls auf Datakin zurückgehenden Metadatendienst Marquez auf der anderen Seite.