Meta- und Stammdaten: OpenLineage rückt in die Sandbox der Linux Foundation

OpenLineage soll einen offenen Standard zum Erfassen von Meta- und Stammdaten setzen, um die Steuerung von KI- und Datenprojekten zu vereinfachen.

In Pocket speichern vorlesen Druckansicht

(Bild: Scott Prokop / Shutterstock.com)

Lesezeit: 1 Min.
Von
  • Matthias Parbel

Das Open-Source-Projekt OpenLineage darf sich ab sofort in der Sandbox der LF AI & Data Foundation bewähren. OpenLineage geht zurück auf eine Entwicklung des auf DataOps spezialisierten Unternehmens Datakin und soll einen offenen, industrieübergreifenden Standard definieren, der das Erfassen und Verarbeiten von Meta- und Stammdaten auch in komplexeren KI- und Datenprojekten über eine API zur Laufzeit erleichtert.

OpenLineage definiert ein generisches Modell von Run-, Job- und Datensatz-Entitäten, die sich anhand einer konsistenten Benennungsstrategie identifizieren lassen, wie im nachfolgenden Schaubild skizziert. Die Entitäten des grundlegenden Modells lassen sich bei Bedarf zudem durch weitere Aspekte anreichern.

(Bild: openlineage.io)

Um die Nachvollziehbarkeit der Herkunft von Daten (Data Lineage) in übergreifenden Projekten einfacher gewährleisten zu können, schafft OpenLineage eine zentrale Integrationsinstanz zwischen Data Warehouses, Analyse-Tools und SQL-Engines auf der einen Seite sowie angebundenen Projekten wie der Data-Discovery- und Metadaten-Engine Amundsen oder dem ebenfalls auf Datakin zurückgehenden Metadatendienst Marquez auf der anderen Seite.

Weitergehende Informationen zu OpenLineage finden sich in der Ankündigung der LF AI & Data Foundation sowie auf der Projektwebsite bei GitHub.

(map)