Big Data: Spark- und Storm-Herausforderer Apache Flink erscheint in Version 1.0

Das Apache-Projekt mit deutschen Wurzeln macht den für Open-Source-Projekte so wichtigen Schritt auf die Versionsnummer 1.0. Doch auch auf Feature-Seite gibt es einige Neuerungen.

In Pocket speichern vorlesen Druckansicht
Big Data: Spark- und Storm-Herausforderer Apache Flink erscheint in Version 1.0

(Bild: Ray eye auf Wikipedia)

Lesezeit: 2 Min.
Von
  • Alexander Neumann

Das Apache-Projekt Flink geht mit der Freigabe der Version 1.0 einen wichtigen Schritt, denn mit der Versionsnummer werden im Open-Source-Umfeld Eigenschaften wie API-Stabilität, damit verbunden die Eignung für Produktivszenarien sowie die Basis für eine zukünftige Abwärtskompatibilität verbunden.

Das mit Apache Spark und Apache Storm konkurrierende Big-Data-Projekt nutzt eine Kombination aus Streaming-, Pipelining- und Batch-Verarbeitungsprozessen, um Nutzern eine Plattform zur Analyse derartiger Daten zu bieten. Es umfasst Programmierschnittstellen in Java, Scala sowie Python und ist zudem mit einer API für Graphenverarbeitung ("Gelly") ausgestattet. Flink ist zu allen Ein- und Ausgabeformaten und Datentypen des Big-Data-Projekts Hadoop kompatibel. Als besondere Features stellt das Projektteam die hybride Batch- und Streaming-Umgebung, die Speicherverwaltung, die Fensterungssemantik für Stream-Programme und den eingebauten Optimierer heraus. Letzterer sorgt dafür, dass richtige Laufzeitoperationen für das jeweilige Programm zum Einsatz kommen.

Neben der erwähnten API-Stabilität werden im Zuge des 1.0-Release Features für Complex Event Processing (CEP) hervorgehoben. Hier lässt sich über die FlinkCEP-Bibliothek ab sofort auch statt einer aufgabenspezifischen CEP-Software eine verteilte generische Stream-Processing-Methodik nutzen, die helfen kann, komplexe Muster in Event-Streams zu erkennen. Neu sind auch die sogenannten Savepoints, mit denen sich Probleme etwa bei Code-Upgrades, Clusterpflege, Tests und Debugging manuell angehen lassen sollen. Sie werden den Checkpoints zugerechnet, die im Zuge von Flink 1.0 einen besser abgestimmten Kontrollmechanismus erhalten haben. Zum Beispiel kann der Checkpoint-Coordinator ab sofort Statistiken über REST-API und Web-Oberfläche preisgeben. Dadurch lassen sich etwa die Größe und Dauer von Checkpoints überprüfen und frühere Checkpoints abrufen – mit dem Ziel, mehr Möglichkeiten bei der Identifizierung von Performanzproblemen zu bekommen.

Weitere Änderungen finden sich beim Monitoring und bei der Unterstützung des Message-Brokers Apache Kafka – es werden nun sowohl Version 0.8 als auch Version 0.9 unterstützt.

Entstanden ist das Projekt im Rahmen des Stratosphere-Forschungsprojekts, das die TU Berlin gemeinsam mit anderen in Berlin ansässigen Organisationen startete. Mittlerweile haben einige der Committer die Start-up-Firma Data Artisans gegründet, die sich dem Ziel verschrieben hat, Code und Community des Projekts voranzubringen. Seit Anfang 2015 hat Apache Flink den Status eines vollwertigen Projekts der Apache Foundation. (ane)