Big Data: Ausblick auf Spark 1.6

Die nun freigegebene Preview-Version von Apache Spark 1.6 gibt einen ersten Einblick in die nächsten Neuerungen. An erster Stelle steht ein besserer Umgang im Verwalten der unterschiedlichen Speicherkapazitäten.

In Pocket speichern vorlesen Druckansicht 1 Kommentar lesen
Spark 1.6
Lesezeit: 3 Min.
Von
  • Alexander Neumann
Inhaltsverzeichnis

Databricks hat die Preview-Version von Apache Spark 1.6 über seinen Cloud-Dienst zum Ausprobieren bereitgestellt. Das Unternehmen ist der maßgebliche Entwickler des Big-Data-Frameworks und Betreiber eines Software as a Service (SaaS) auf Basis von Spark. Diejenigen, die das nächste Spark-Release unabhängig von dem Databricks-Angebot testen wollen, können den Code direkt von der Apache-Webseite des Projekts beziehen.

Das nächste Release bringt einige Änderungen beim Umgang mit dem Speicherverhalten mit. Die bisherigen Ausgaben des Frameworks unterteilen den Speicher in zwei Bereiche, einen für die Datenhaltung und einen für die Ausführung. Das hat zur Folge, dass die Anwender zu evaluieren haben, wie viel Speicher sie den jeweiligen Bereichen zuweisen müssen. In der neuen Version können sowohl der Datenhaltungs- als auch der Ausführungsspeicher so viel Kapazitäten vom jeweils anderen Bereich beziehen, wie sie für sich benötigen. Das soll zu einer spürbaren Beschleunigung in der Speicherverwaltung führen. Derzeit ist die Implementierung davon allerdings noch nicht frei von Restriktionen.

Zusätzlich enthält Spark 1.6 aus Gründen der Rückwärtskompatibilität einen Speicher-Management-Modus für die bisherigen Fixed-Partition-Modelle. Außerdem arbeiten die Entwickler weiter an den dem Project Tungsten zugeschriebenen Features. Im Tungsten-Projekt werden Änderungen an der Execution Engine von Spark durchgeführt, die zu einer effizienteren Ausnutzung von Datenspeichern und CPUs führen sollen.

Dann lässt sich mit der Dataset API mit mehreren typisierten Objekten im Verbund arbeiten. Bislang hatte man bei Spark die Wahl aus zwei Programmierschnittstellen: erstens RDDs (Resilient Distributed Datasets), die eine nützliche, aber auch langsame Sammlung nativer Java-Objekte darstellen, und zweitens DataFrames, die einer Menge strukturierter Binärdaten entsprechen, die zwar schneller als die RDDs sind, aber auch weniger stabil. Die Dataset API soll die Vorzüge beider Ansätze vereinen, aber sich auch interoperabel mit den DataFrames verhalten.

Schließlich gibt es Änderungen an der Echzeitdatenkomponente, Spark Streaming, die ein ebenfalls schnelleres Verhalten mitbringen soll, sowie neue Machine-Learning-Algorithmen und Überarbeitungen an den Programmierschnittstellen für R und Python.

Apache Spark ist ein quelloffenes Framework für verteilte Kalkulationen auf Rechnerclustern. Durch Bibliotheken für Streaming-Szenarien und Machine Learning lässt es sich unter anderem gut für Datenanalysezwecke einsetzen, weshalb es im Big-Data-Umfeld für Unternehmen von Interesse sein kann. Das Framework hat seine Wurzeln in einem Projekt des AMPLab der UC Berkeley. Dort wurde es 2009 gestartet und ein Jahr später unter einer BSD-Lizenz veröffentlicht. 2013 kam Spark in der Apache Software Foundation unter, wo es im Februar 2014 zum Top-Level-Projekt aufstieg.

Siehe dazu auf heise Developer:

(ane)