Apache Spark 1.0: Framework zur Echtzeitdatenanalyse mit stabilen APIs

Das auch als Schweizer Taschenmesser für Hadoop-Anwendungen gelobte Apache-Projekt will mit dem ihm zugrunde liegenden In-Memory-Modell gegenüber der MapReduce-Implementierung von Apache Hadoop punkten.

1

02.06.2014, 11:01 Uhr

Lesezeit: 2 Min.

Developer

Von

Alexander Neumann

Die Apache Software Foundation hat die insbesondere in der Open-Source-Entwicklung bedeutungsschwere Version 1.0 des Frameworks zur Echtzeitdatenanalyse Apache Spark bekanntgegeben. Ursprünglicher Entwickler von Spark ist das AMPLab der University of California in Berkeley, wo das Framework 2009 erschien, bevor es 2010 zum Open-Source-Projekt wurde. Nachdem es im Juni 2013 in die Apache Software Foundation eingebracht worden war, war es schon im Februar dieses Jahres zum Top-Level-Projekt der Open-Source-Organisation aufgestiegen.

Die APIs von Apache Spark werden nun als stabil angesehen, was impliziert, dass sich die Programmierschnittstellen in der Entwicklung weiterer 1.x-Releases rückwärtskompatibel verhalten sollen. Die aktuelle Version von Spark will außerdem mit einer neuen SQL-Komponente für den Zugriff auf strukturierte Daten und einer besseren Integration mit anderen Apache-Projekten wie Hadoop YARN, Hive und Mesos punkten. Die MLLib-Komponente verfügt schließlich über mehr Algorithmen. Auch werden die mit Java 8 eingeführten Lambda-Funktionen unterstützt.

Das in den Programmiersprachen Scala, Java und Python geschriebene Framework wird vorrangig im Umfeld von HDFS- oder NFS-Installationen (Hadoop File System/Network File System) eingesetzt. Ihm wird nachgesagt, durch das ihm zugrunde liegende In-Memory-Modell deutlich schneller als Hadoops MapReduce-Implementierung Daten abfragen und analysieren zu können. In der Pressemeldung zur Version 1.0 ist hier von 100-mal schnelleren Programmen die Rede.

Alibaba, IBM, Intel, Yahoo und die NASA sind große Organisationen, die das Framework bereits einsetzen. Mit Cloudera, Hortonworks und MapR haben auch zwei bekannte Hadoop-Distributoren seit kurzem Spark integriert. Außerdem gibt es mittlerweile etliche Integrationen mit Datenbanken wie HBase und Cassandra und anderen Big-Data-Techniken.

Siehe dazu auch: