Big Data: Apache Flink wird Top-Level-Projekt

Das aus einem Forschungsprojekt hervorgegangene System zum Verarbeiten und Analysieren von Batch- und Streaming-Daten erfüllt nun alle Vorgaben, die die Apache Foundation für wichtig erachtet.

12.01.2015, 13:51 Uhr

Lesezeit: 1 Min.

Developer

Von

Julia Schmidt

Mit Apache Flink konnte nun ein weiteres Projekt aus dem Apache Incubator in den Rang der Top-Level-Projekte aufsteigen. Das System nutzt eine Kombination aus Streaming-, Pipelining- und Batch-Verarbeitungs-Prozessen, um Nutzern eine Plattform zur Analyse derartiger Daten zu bieten. Es umfasst Programmierschnittstellen in Java und Scala und ist zudem mit speziellen APIs für Graphenverarbeitung ausgestattet.

Flink ist zu allen Ein- und Ausgabeformaten und Datentypen von Apaches Big-Data-Projekt Hadoop kompatibel, ist in der Lage, Daten aus HDFS und HBase zu lesen und mit alten MapReduce-Operatoren umzugehen. Als besondere Features stellt das Projektteam unter anderem die hybride Batch- und Streaming-Umgebung, die Speicherverwaltung, die Fensterungssemantik für Stream-Programme und den eingebauten Optimierer heraus. Letzterer sorgt dafür, dass richtigen Laufzeitoperationen für das jeweilige Programm zum Einsatz kommen.

Entstanden ist Flink im Rahmen des 2009 begonnenen Stratosphere-Forschungsprojekts, das die TU Berlin damals gemeinsam mit anderen in Berlin ansässigen Organisationen, die sich mit Datenmanagement beschäftigen, startete. Später beteiligten sich unter anderem die Universitäten KTH aus Stockholm und ELTE aus Budapest. Mittlerweile haben einige der Committer ein Start-up gegründet, dass sich dem Ziel verschrieben hat, Code und Community des Projekts voranzubringen. (jul)