Airbnb stellt Open-Source-Projekt zum Workflow Management vor

Die in Python verfasste Workflow-Management-Plattform Airflow soll das Erstellen, Bearbeiten und Überwachen von Data Pipelines erleichtern und zudem Scheduling- und Analyseoptionen bieten.

In Pocket speichern vorlesen Druckansicht
Airbnb stellt Open-Source-Projekt zum Workflow Management vor
Lesezeit: 2 Min.
Von
  • Julia Schmidt

Das Entwicklerteam der Vermittlungsplattform Airbnb hat die Quellen seiner Workflow-Management-Plattform Airflow unter der Apache-Lizenz freigegeben und das hauseigene Projekt in einem Blogbeitrag vorgestellt. Bei Airflow handelt es sich um ein Werkzeug, dass helfen soll, Daten-Pipelines zu erstellen, zu überwachen und und einzuplanen. Das Unternehmen selbst nutzt es wohl unter anderem für Aufgaben aus den Bereichen Data Warehousing, Wachstumsanalyse und Infrastrukturinstandhaltung.

Airflows grundlegende Architektur soll wohl leicht erweiterbar, gut dokumentiert und mit Unit-Tests abgedeckt sein. Sie ist in Python verfasst, und auch das Pipeline-Authoring soll in dieser Sprache möglich sein. Im Gegensatz zu YAML oder JSON als Mittel zur Jobkonfiguration sehen die Entwickler bei Python Vorteile bei den Möglichkeiten der Metaprogrammierung oder dem Import von Bibliotheken als Hilfestellung zum Erstellen der Pipelines. Jobs in anderen Sprachen zu verfassen sei zudem möglich, allerdings ist in dem Fall zusätzlich Python-Code zu deren Interpretation zu verfassen.

Airflow soll unter anderem in der Lage sein, Abhängigkeitsgraphen zu Erstellen.

(Bild: Airbnb )

Die Plattform setzt sich aus Jobdefinitionen, einer Kommandozeilenschnittstelle (CLI), einer Webanwendung, einem Metadaten-Repository, Workern und Scheduler-Prozessen zusammen. Die Webanwendung soll dabei das Überwachen und Interagieren mit den Workflows erleichtern, indem sie unter anderem Möglichkeiten zum Data Profiling, Visualisieren von Abhängigkeiten, Analysieren von zeitlichen Verläufen und Starten von Aufgaben bietet. Außerdem stehen hier wohl Administrationsfunktionen wie das Verwalten von Verbindungen zur Verfügung.

Weitere Informationen finden sich in der Ankündigung. Zum Einstieg empfiehlt sich ein Blick in das in der Dokumentation verfügbare Tutorial zum Erstellen einer Pipeline. (jul)