Datenintegration: Apache Hop schließt die Bewährungsprobe bei der ASF ab

Die Hop Orchestration Platform hat den Reifeprozess im Inkubator der Apache Software Foundation erfolgreich durchlaufen und ist ab sofort ein Top-Level-Projekt.

In Pocket speichern vorlesen Druckansicht 2 Kommentare lesen

(Bild: Dabarti CGI/Shutterstock.com)

Lesezeit: 3 Min.

Die Apache Software Foundation (ASF) nimmt die Java-basierte Datenintegrationsplattform Apache Hop Orchestration Platform (Hop) in die Riege ihrer Top-Level-Projekte auf. Nach nur rund 16-monatiger Bewährungsphase im Apache Incubator hat Hop offenbar den erforderlichen Reifegrad erlangt und eine aktive Community hinter sich versammelt, um künftig auf die vollständige Unterstützung durch die ASF bauen zu können.

Apache Hop soll Datenexpertinnen und -experten die Möglichkeit eröffnen, alle Aspekte der Orchestrierung von Daten und Metadaten schnell und kostengünstig zu erledigen. Sämtliche dazu erforderliche Funktionen wie das Entwerfen, Ausführen, Prüfen, Debuggen und Betreiben von Workflows und Pipelines lassen sich per Drag-and-Drop über das Hop GUI nutzen – tiefergehende Programmierkenntnisse sind nicht notwendig, individuelle Anpassungen lassen sich aber auch durch Code jederzeit vornehmen.

Nach dem Prinzip "design once, run everwhere" lassen sich die im Hop GUI gebauten Daten-Pipelines und -Workflows sowohl lokal wie auch remote mit der Hop-Engine ausführen. Das Werkzeug ist aber ebenso für den plattformübergreifenden Einsatz ausgelegt: über die Beam-Runtime lassen sich auch die Apache-Projekte Flink, Spark und Kafka sowie darüber hinaus Google Dataflow oder AWS EMR (Elastic MapReduce) einbinden. Rund 250 verfügbare Plug-ins eröffnen zudem die Möglichkeit, Apache Hop um weitere Funktionen zu ergänzen.

Via Hop GUI lassen sich Workflows und Pipelines ohne Code zusammenbauen.

(Bild: ASF)

Das laut ASF-Ankündigung ebenfalls im Hop GUI integrierte Lifecycle-Management bietet Datenexpertinnen und -experten einfachen Zugriff auf die wichtigsten Aufgaben zum Verwalten, Testen und der Versionskontrolle bis hin zum Bereitstellen ihrer Workflows und Pipelines. Auch der Wechsel zwischen verschiedenen Projekten, Umgebungen und Versionen soll sich dadurch nahtlos gestalten.

Apache Hop geht ursprünglich zurück auf die proprietäre ETL-Plattform (Extract Transform Load) Pentaho Data Integration (Kettle), wurde seit 2019 als Fork davon aber weitgehend neu entwickelt. Im September 2020 nahm die Apache Software Foundation das Open-Source-Projekt in ihren Inkubator auf, wo die Weiterentwicklung von Hop über die Releases 0.60, 0.70 und 0.99 im Oktober vergangenen Jahres schließlich in der ersten Hauptversion Apache Hop 1.0 mündete.

Derzeit bereitet das Hop-Team die Veröffentlichung von Version 1.1.0 vor, die unter anderem neue Transform-Plug-ins für Apache Tika und für die Metadateneingabe liefern soll. Als Reaktion auf die kritische Log4j-Lücke wurden die bisher stets in Hop enthaltenen Jars der Bibliothek entfernt – nach Aussage des Teams habe die Datenintegrationsplattform die Java-Bibliothek aber sowieso nie aktiv verwendet. Mit Blick auf die nächste Hauptversion Apache Hop 2.0 vollzieht das Projekt nun den Wechsel auf Builds mit Java 11.

(map)