Googles MapReduce-Nachfolger Dataflow soll Apache-Projekt werden

Der hoch skalierbare Cloud-Service zum Erstellen von Daten-Worklows soll eine neue Heimat unter dem Dach der Apache Software Foundation erhalten.

In Pocket speichern vorlesen Druckansicht
Googles MapReduce-Nachfolger Dataflow soll Apache-Projekt werden
Lesezeit: 1 Min.
Von
  • Alexander Neumann

Google hat mit einigen anderen Beteiligten wie Cloudera, Data Artisans, Talend, Cask und PayPal die dem Cloud-Dataflow-Projekt zugrunde liegende Technik der Apache Software Foundation als Open-Source-Projekt vorgeschlagen. In zur Begutachtung vorgesehen Apache-Incubator-Phase müssen die Betreiber nun beweisen, dass das Projekt den Regeln und Prinzipien der Open-Source-Organisation gemäß betrieben wird.

Google hatte Dataflow im Sommer 2014 als Nachfolger für die hauseigene MapReduce-Implementierung vorgestellt und zugleich ein darauf basierendes Cloud-Angebot ins Portfolio aufgenommen. Mit dem Service soll es einfach sein, Erkenntnisse aus den vorliegenden Daten zu ziehen und daraus hilfreiche Ableitungen für die Praxis zu treffen. Mögliche Probleme beim Bereitstellen, Warten und Skalieren einer Infrastruktur entfallen offenbar. Außerdem lassen sich mit Cloud Dataflow gängige Anwendungsszenarien wie ETL-Prozesse (Extract, Transform, Load), Batch-Datenverarbeitung und Streaming-Analytics realisieren.

Dataflow soll die generische Pipeline zwischen den eingehenden Daten und der Runtime werden.

(Bild: Google)

Google hat dafür mittlerweile ein Java SDK in petto, das sogenannte Runner enthält, mit denen Dataflow-Nutzer ihre Programme auf unterschiedlichen Ausführungs-Engines laufen lassen können. Derzeit stehen Cloud-gebundene und lokale für Apache Flink und Apache Spark zur Verfügung, und von Google gibt es einen für den eigenen Dataflow-Cloud-Dienst, aber auch einen zur direkten lokalen Ausführung. (ane)