Apache Spark 1.0: Framework zur Echtzeitdatenanalyse mit stabilen APIs

02.06.2014 11:01 Uhr Alexander Neumann

Das auch als Schweizer Taschenmesser für Hadoop-Anwendungen gelobte Apache-Projekt will mit dem ihm zugrunde liegenden In-Memory-Modell gegenüber der MapReduce-Implementierung von Apache Hadoop punkten.

Die Apache Software Foundation hat die insbesondere in der Open-Source-Entwicklung bedeutungsschwere Version 1.0 [1] des Frameworks zur Echtzeitdatenanalyse Apache Spark [2] bekanntgegeben [3]. Ursprünglicher Entwickler von Spark ist das AMPLab der University of California in Berkeley, wo das Framework 2009 erschien, bevor es 2010 zum Open-Source-Projekt wurde. Nachdem es im Juni 2013 in die Apache Software Foundation eingebracht worden war, war es schon im Februar dieses Jahres zum Top-Level-Projekt der Open-Source-Organisation aufgestiegen.

Die APIs von Apache Spark werden nun als stabil angesehen, was impliziert, dass sich die Programmierschnittstellen in der Entwicklung weiterer 1.x-Releases rückwärtskompatibel verhalten sollen. Die aktuelle Version von Spark will außerdem mit einer neuen SQL-Komponente für den Zugriff auf strukturierte Daten und einer besseren Integration mit anderen Apache-Projekten wie Hadoop YARN, Hive und Mesos punkten. Die MLLib-Komponente verfügt schließlich über mehr Algorithmen. Auch werden die mit Java 8 eingeführten Lambda-Funktionen unterstützt.

Das in den Programmiersprachen Scala, Java und Python geschriebene Framework wird vorrangig im Umfeld von HDFS- oder NFS-Installationen (Hadoop File System/Network File System) eingesetzt. Ihm wird nachgesagt, durch das ihm zugrunde liegende In-Memory-Modell deutlich schneller als Hadoops MapReduce-Implementierung Daten abfragen und analysieren zu können. In der Pressemeldung zur Version 1.0 ist hier von 100-mal schnelleren Programmen die Rede.

Alibaba, IBM, Intel, Yahoo und die NASA sind große Organisationen, die das Framework bereits einsetzen. Mit Cloudera, Hortonworks und MapR haben auch zwei bekannte Hadoop-Distributoren seit kurzem Spark integriert. Außerdem gibt es mittlerweile etliche Integrationen mit Datenbanken wie HBase und Cassandra und anderen Big-Data-Techniken.

Siehe dazu auch:

Apache Spark [4] im heise Software-Verzeichnis

URL dieses Artikels:
https://www.heise.de/-2213858

Links in diesem Artikel:
[1] http://spark.apache.org/releases/spark-release-1-0-0.html
[2] http://spark.apache.org/
[3] https://blogs.apache.org/foundation/entry/the_apache_software_foundation_announces57
[4] http://www.heise.de/download/apache-spark-1194625.html