Apache Beam erreicht Version 2.0

Trotz der Versionsnummer 2 markiert die Veröffentlichung das erste stabile Release des aus Googles Cloud Dataflow SDK hervorgegangenen Tools, das seit Januar ein Top-Level-Projekt der Apache Foundation ist.

In Pocket speichern vorlesen Druckansicht
Apache Beam erreicht Version 2.0
Lesezeit: 2 Min.
Von
  • Rainald Menge-Sonnentag

Apache Beam hat einen wichtigen Meilenstein erreicht: Die Version 2.0.0 ist das erste stabile Release der Software. Damit ist vor allem die API-Stabilität auf absehbare Zeit gewährleistet. Google hatte das erweiterte SDK von Cloud Dataflow im Februar 2016 der Apache Foundation als Open-Source-Projekt übertragen, das dort den jetzigen Namen erhielt. Nach einer knapp einjährigen Incubator-Phase mit drei Releases stieg Beam zum Top-Level-Projekt der Apache Software Foundation auf.

Weitere drei Releases später erreicht es nun Version 2.0. Laut dem Blogbeitrag zur Veröffentlichung waren die letzten fünfzehn Monate durchaus turbulent, da die "leicht chaotische Codebasis" einige Aufräumarbeiten erforderte und Software zahlreicher Organisationen als Merges eingeflossen sind. Bereits im Januar verkündete das Team, dass Beam zum echten Community-Projekt geworden sei: Gut die Hälfte der Module seien seit der Übergabe an die Foundation von Grund auf nahezu ohne Googles Mitwirkung entstanden.

Konsequenterweise ist Version 2.0 vor allem darauf ausgerichtet, nahtlos zwischen unterschiedlichen Umgebungen portierbar zu sein, unabhängig vom Betriebssystem, Cloud-Provider oder der Infrastruktur des Rechenzentrums. Neben der API-Stabilität nennt der Blogbeitrag zudem Paradigmen des Stateful Data Processing und Unterstützung für Dateisysteme, die durch die Nutzer erweiterbar sind mit Support für das HDFS (Hadoop Distributed File System).

Apache Beam soll eine einheitliche API für unterschiedliche Plattformen bieten. Derzeit existieren SDKs für Java und Python. Google hatte Cloud Dataflow ursprünglich mit der Intention gestartet, einen Nachfolger für MapReduce zu entwickeln. Sogenannte Runners bieten eine Anbindung unter anderem an Apache Flink, Spark, Apex und Gearpump sowie Google Cloud Data Flow. Eine Reihe von Tabellen gibt Aufschluss darüber, welche Funktionen für welches System verfügbar sind.

Im Einsatz ist Apache Beam unter anderem bereits bei Google Cloud, PayPal und Talend. Um Entwicklern den Einstieg zu vereinfachen, hat das Team zwei Beispielprojekte namens WordCount und Mobile Gaming Pipeline veröffentlicht. (rme)