Big Data: Apache Spark 1.5 drĂĽckt aufs Tempo
Das auf In-Memory-Verarbeitung setzende Framework zur Berechnung auf Clustern gilt für viele als möglicher Nachfolger von Hadoop. Dem Weg einen Schritt näher gekommen ist man dank etlicher Performancearbeiten mit Spark 1.5.
- Alexander Neumann
Rund drei Monate nach dem letzten größeren Release ist nun Spark 1.5 erschienen. Beim Apache-Framework zur Echtzeitdatenanalyse wurde vor allem an der Performance geschraubt. So wurde ein Flaschenhals entfernt, der sich durch die Abhängigkeiten des Frameworks mit der Java Virtual Machine (JVM) auf das Verhalten von Spark auswirkte
Die Änderungen sind im Rahmen des Project Tungsten durchgeführt worden, das dank neuer Machine-Learning-Algorithmen und -Features für eine schnellere Ausführung von DataFrame-Operationen steht. DataFrames sind im Spark-Kontext datengetriebene Abstraktionen für Datenbanktabellen. Im Tungsten-Projekt werden Änderungen des Spark-Betreibers Databricks an der Execution Engine von Spark durchgeführt, die zu einer effizienteren Ausnutzung von Datenspeichern und CPUs führen sollen. Es gibt gar Überlegungen, GPU-Parallelität zu nutzen, diese sind aber derzeit noch theoretischer Natur.
Des Weiteren ist von einem weitergehenden Support der Cluster-Management-Techniken Apache Mesos und YARN (Yet Another Resource Negotiator) die Rede. Und auch an der mit Spark 1.4 eingeführten R-API hat es offenbar signifikante Verbesserungen gegeben.
Apache Spark ist ein quelloffenes, auf In-Memory-Verarbeitung setzendes Framework zur Berechnung auf Clustern, das seine Wurzeln in einem Projekt des AMPLab der UC Berkeley hat. Dort wurde es 2009 gestartet und ein Jahr später unter einer BSD-Lizenz veröffentlicht. 2013 kam Spark in der Apache Software Foundation unter, wo es im Februar 2014 zum Top-Level-Projekt aufstieg. Mittlerweile sehen viele in Spark den legitimen Nachfolger des Big-Data-Frameworks Hadoop. (ane)