Gobblin futtert sich zum Top-Level-Projekt der Apache Software Foundation
Das bei LinkedIn entstandene Datenintegrations-Framework ist nun ein vollwertiges Projekt unter dem Schirm der Open-Source-Stiftung.
Die Apache Software Foundation hat Gobblin zum Top-Level-Projekt erkoren. Das ursprünglich bei LinkedIn entwickelte Framework zur Aufnahme und Verwaltung von Daten hat damit die obligatorische Inkubationsphase nach vier Jahren abgeschlossen. Mit der Ernennung zum Top-Level-Projekt erklärt die Foundation, dass ein Projekt ihren Anforderungen an reife Open-Source-Software erfüllt.
Gobblin ist das vierte Projekt zur Datenverarbeitung, das in den letzten Wochen die höchsten Weihen bei der Open-Source-Organisation erreicht hat. Im Januar erhielten das Datenanalyse-Werkzeug Superset und die Visualisierungs-Library ECharts den Top-Level-Status, und im Februar folgte die Analysebibliothek DataSketches.
Datenhungrig wie Pac-Man
Ein Blick auf das Gobblin-Logo zeigt, dass die Software ihren Namen nicht von den Fantasygestalten mit nur einem "b" im Namen hat, sondern von dem ewig fressenden Pac-Man (gobble, gobble). Entsprechend ist das Datenintegrations-Framework darauf ausgelegt, beliebige Daten aufzunehmen, zu replizieren und zu organisieren.
Es zielt auf drei grundlegende Aufgaben ab:
- Die Aufnahme aus unterschiedlichen Datenquellen und -senken und den Export in Data Lakes, fĂĽr die das Tool die Inhalte passend transformieren kann,
- die Organisation der Daten innerhalb des Data Lake ĂĽber Methoden wie Deduplizierung und Partionierung sowie
- das Lifecycle- und Compliance-Management der Daten im Lake inklusive Methoden zur Datenaufbewahrung und dem gezielten Löschen von Inhalten.
Dabei setzt Gobblin auf Erweiterbarkeit zum Einbeziehen externer Werkzeuge fĂĽr die einzelnen Verarbeitungsschritte.
Von der Quelle bis zum Publisher
Die Architektur bietet die sechs als Gobblin Constructs bezeichneten Komponenten Source für den Zugriff auf die Quellen, Extractor für die Extraktion mit Informationen über die Startposition der zu extrahierenden Daten, Quality Checker für die Qualitätskontrolle sowie Writer und Publisher, die gemeinsam das Schreiben übernehmen.
Gobblin lässt sich wahlweise als eigenständige Anwendung (Single Node im Diagramm), im Mapreduce Mode mit Hadoop oder im Hadoop YARN-Cluster (Yet Another Resource Negotiator) verwenden.
Von LinkedIn zu Apple, PayPal, CERN und Co
Gobblin ist wie das prominentere Projekt Apache Kafka ursprĂĽnglich bei LinkedIn entstanden. Die UrsprĂĽnge gehen ins Jahr 2014 zurĂĽck, und seit 2015 ist Gobblin Open-Source-Software. Im Februar 2017 hat das Karrierenetzwerk das Framework der Apache Software Foundation ĂĽbergeben, wo es nun nach fast genau vier Jahren den Inkubator verlassen hat.
Zu den Unternehmen, die Gobblin nutzen, gehören neben LinkedIn unter anderem Apple, Intel, PayPal, Verizon und das CERN.
Weitere Details zum Aufstieg von Gobblin lassen sich dem Blog der Apache Software Foundation entnehmen.
(rme)