Datenintegration: Apache Hop 2.1 baut Anbindung an Kubernetes und MongoDB aus

Die Apache Hop Orchestration Platform führt neue Optionen für die Verwendung mit Datenbanken und weiteren Tools ein und startet eine Informationsplattform.

(Bild: Volodymyr Burdiak / Shutterstock.com)

19.10.2022, 11:13 Uhr

Lesezeit: 2 Min.

Developer

Von

Maika Möbus

Das Team hinter der Apache Hop Orchestration Platform, kurz Apache Hop, hat nach viereinhalb Monaten die Arbeit an Version 2.1 abgeschlossen. Die Datenintegrationsplattform erweitert die Anbindung an die NoSQL-Datenbank MongoDB, an das Datenverarbeitungstool Apache Beam und an die Container-Orchestrierung Kubernetes, führt drei neue Plug-ins ein und startet eine neue Plattform für Informationen über Ausführungsvorgänge und Data Profiling.

Neue Möglichkeiten mit MongoDB, Kubernetes und Apache Beam

Apache Hop konnte bereits in früheren Releases mit MongoDB umgehen, erhält nun jedoch eine zusätzliche Funktion. Das neue Transform-Plug-in MongoDB Delete erlaubt das Löschen von Dokumenten oder Aufzeichnungen aus einer Sammlung innerhalb von MongoDB. Transform-Plug-ins sind der Grundpfeiler von Apache Hop, die dem Verarbeiten und Transformieren von Daten dienen und die Bausteine für das Erstellen einer Pipeline bilden.

Videos by heise

Für Kubernetes bringt Apache Hop 2.1 neue Helm Charts for Hop Server und Hop Web. Diese müssen laut dem Entwicklungsteam nicht zwingend dem Releasezyklus von Apache Hop folgen und liegen derzeit in Version 0.1 vor. Auch enthält die Dokumentation nun Informationen darüber, wie sich eine Apache-Hop-Pipeline mit dem Flink Kubernetes Operator ausführen lässt.

Auch für die Anbindung an Apache Beam, ein einheitliches Programmiermodell für Batch- und Stream-Datenverarbeitung, gibt es neue Möglichkeiten. Dazu zählt der Support von AWS Kinesis über Apache Beam.

Zusätzliche Plug-ins und gebündelte Informationen

Wie das Apache-Hop-Team mitteilt, verbrachte es einen Großteil der Entwicklungszeit mit einer neuen Plattform für Informationen über Ausführungen (Executions) und Data Profiling. Das Framework soll eine einheitliche, transparente und zentralisierte Methode bieten, Informationen über aktuelle und bisherige Ausführungen darzustellen, da diese bisher fehlte. Die Hintergründe lassen sich im entsprechenden Jira-Issue nachlesen.

Zu den weiteren Neuerungen zählen zusätzliche Transform-Plug-ins: Microsoft Access Output erlaubt das Schreiben von Daten auf Microsoft-Access-Datenbanken und der Snowflake Build Loader ermöglicht den Bulk-Upload von Daten zu analytischen Cloud-Datenbanken in Snowflake. Daneben ist Apache Hive nun ein komplett unterstützter Datenbanktyp.