Big Data: Spark 1.3 will Data Science mit neuer API unterstützen

Neben einer DataFrame API enthält das aktuelle Release des Frameworks zur Echtzeitdatenanalyse unter anderem eine ausgereifte Version von Spark SQL und neue Algorithmen in MLlib.

In Pocket speichern vorlesen Druckansicht
Lesezeit: 2 Min.
Von
  • Julia Schmidt

Apache Spark steht ab sofort in Version 1.3 zum Download bereit. Als größte Neuerung des aktuellen Release stellen die Entwickler die im Februar 2015 angekündigte DataFrame API heraus. Die Programmierschnittstelle soll die Verarbeitung großer Datenmengen erleichtern und neuen Zielgruppen eröffnen, indem es das Konzept der aus R und der Python-Bibliothek pandas bekannten DataFrames umsetzt. Hierbei handelt es sich um tabellenartige Strukturen, die im Gegensatz zu Matrizen Objekte unterschiedlicher Klassen enthalten können.

Um DataFrames beispielsweise aus Hive-Tabellen oder Parquet-Dateien erstellen zu können, ist die Data Source API der aus der Alphaphase entlassenen Spark-SQL-Komponente nun in der Lage, mit dem neuen Konzept umzugehen. Spark SQL ist ein Modul zur Arbeit mit strurkturierten Daten und ermöglicht es ab Version 1.3, Tabellen aus einer JDBC-Verbindung (Java Database Connectivity) zu lesen und zu schreiben, wobei es wohl PostgreSQL, MySQL und andere RDBMS-Systeme nativ unterstützen soll.

Weitere Ergänzungen sind etwa in Sparks Bibliothek zum Machine Learning MLlib zu finden. Hier haben die Entwickler neue Algorithmen wie Gaussian Mixture Models für Clustering-Aufgaben und Latent Dirichlet Allocation für Wahrscheinlichkeitsmodelle eingebaut. Außerdem gibt es nun die Option, Projektpakete aus der Spark-Community durch das Setzen eines Flag in einer Spark Shell oder in einem Programm zu verwenden. Detailliertere Informationen zu den Änderungen in Spark 1.3 finden sich in den Release Notes.

Apache Spark ist ein quelloffenes Framework für Berechnung auf Clustern und hat seine Wurzeln in einem Projekt des AMPLab der UC Berkeley. Dort wurde es 2009 gestartet und ein Jahr später unter einer BSD-Lizenz veröffentlicht. 2013 kam Spark in der Apache Software Foundation unter, wo es nach einer Zeit im Incubator im Februar 2014 zum Top-Level-Projekt aufstieg. (jul)