Big Data mit Cloud Dataflow: Google hat sich von MapReduce verabschiedet

Auf der Entwicklerkonferenz Google I/O kam heraus, dass das MapReduce-Programmiermodell schon seit einigen Jahren keine Rolle mehr bei Google spielt. Vielmehr wurde ein hoch skalierbarer Cloud-Service zum Erstellen von Daten-Worklows vorgestellt.

In Pocket speichern vorlesen Druckansicht 6 Kommentare lesen
Lesezeit: 2 Min.
Von
  • Alexander Neumann

MapReduce galt lange Zeit als das Maß der Dinge bei nebenläufigen Berechnungen über große Datenmengen auf Computerclustern. Das von Google 2003 vorgestellte Programmiermodell hat aber mittlerweile auch schon über eine Dekade auf dem Buckel. In dieser Zeit haben sich die Anforderungen und Erwartungen an Flexibilität und Verfügbarkeit gerade der großen Internetunternehmen wie Google, Yahoo und Facebook massiv verändert. Das war zum Beispiel der Grund für die Entwickler der bekanntesten und verbreitetsten MapReduce-Implementierung in Apache Hadoop, mit der Version 2.x nicht mehr nur auf MapReduce zu setzen, sondern auch andere Programmiermodelle zur verteilten Speicherung und Verarbeitung zuzulassen.

Auf der derzeit laufenden Entwickler-Konferenz Google I/O hat nun der Veranstalter mit Google Cloud Dataflow erstmals einen Nachfolger für die eigene MapReduce-Implementierung vorgestellt. Urs Hölzle, Senior Vice President of Technical Infrastructure, erklärte, dass Google MapReduce schon geraume Zeit nicht mehr nutze. Hinter Cloud Dataflow verbirgt sich ein Managed Service zum automatischen Erstellen von Daten-Worklows, innerhalb derer sich Daten erfassen, bearbeiten und sowohl im Batch- als auch im Streaming-Modus analysieren lassen sollen. Ein verwandtes Angebot bietet zum Beispiel Amazon mit AWS Data Pipeline und Kinesis.

Mit dem Service soll es einfach sein, Erkenntnisse aus den vorliegenden Daten zu ziehen und daraus hilfreiche Ableitungen für die Praxis zu treffen. Mögliche Probleme bei der Bereitstellung, Wartung und Skalierung einer Infrastruktur entfallen offenbar. Außerdem lassen sich mit Cloud Dataflow gängige Anwendungsszenarien wie ETL-Prozesse (Extract, Transform, Load), Batch-Datenverarbeitung und Streaming-Analytics realisieren.

Cloud Dataflow setzt anscheinend auf Google-interne Projekten wie MillWheel und Flume. Es hat wohl nicht die Einschränkungen bei der Skalierung wie MapReduce. Die "Magie" hinter dem Dienst, der derzeit noch den Status einer geschlossenen Beta hat, wird in einem Artikel zu der Java-Bibliothek Flume.Java beschrieben, die einige einfache Abstraktionen für datenparallele Berechnungen bietet. (ane)