MapR bringt eine Apache-Spark-Distribution

Auf dem Spark Summit hat das für seine Hadoop-Distribution bekannte Unternehmen eine komplett auf Apache Spark aufsetzende Variante der MapR-Plattform angekündigt.

09.06.2016, 18:17 Uhr

Lesezeit: 2 Min.

Developer

Von

Rainald Menge-Sonnentag

MapR ist vor allem für seine Hadoop-Distribution bekannt und neben Cloudera und Hortonworks einer der wichtigen dedizierten Anbieter des Big-Data-Frameworks. Im Zuge immer neuer Big-Data-Technik hat das Unternehmen sein Angebot zur Converged Data Platform ausgebaut, die proprietäre Systeme zum Datenmanagement mit Open-Source-Software wie Hadoop, Apache Drill und Spark sowie kommerzielle Engines von SAP und anderen Anbietern verbindet.

Kompletter Spark-Stack

Nun hat MapR eine eigene Spark-Distribution angekündigt, die den kompletten Spark-Stack umfasst. Dazu gehören die Grundlage Spark Core, die Bibliothek mit Funktionen für maschinelles Lernen namens Apache MLib, die Zugriffsebene auf relationale Datenbanken Spark SQL und Spark Streaming zur Verarbeitung von Datenströmen. Ebenfalls enthalten sind mit GraphX das verteilte Framework zur Berechnung von Graphen und mit SparkR ein leichtgewichtiges Frontend für die Programmiersprache R.

Kombination aus Spark-Stack und proprietärer Datenverwaltung

Bei der Datenverwaltungsebene setzt MapR auf die proprietären Systeme der eigenen konvergenten Datenplattform: das Dateisysteme MapR-FS, die Datenbank MapR-DB und MapR Streams zur Verarbeitung von Datenströmen. Auf Benutzerseite bietet die Suite ein Werkzeug zum Workflow Management und sogenannte Quick Start Solutions (QSS) mit Vorlagen von typischen Anwendungsfällen. Demnächst will MapR noch ein webbasiertes Notebook nachreichen, mit dem Datenwissenschaftler interaktive Analysen auf der Basis von Spark durchführen.

Mit der Spark-Distribution trägt auch MapR der wachsenden Beliebtheit von Spark zu Lasten von Hadoop Rechnung. Seit 2014 ist Spark ein offizielles Apache-Projekt mit der Versionsnummer 1.0, hat seine Wurzeln jedoch 2009 in einem Projekt des AMPLab der UC Berkeley. Im Mai erschien die erste Alpha von Spark 2.0, das bessere Kompatibilität zu Standard-SQL bietet und die Verarbeitung von Batch-Daten und Datenströmen vereinheitlicht.

Integration mit Hadoop

Trotzdem ist Hadoop nach wie vor in vielen Unternehmen verbreitet und wird es wohl auch auf absehbare Zeit bleiben. Die Spark-Distribution von MapR arbeitet mit separat erhältichen Hadoop-Tools ebenso zusammen wie umgekehrt die Hadoop-Distribution mit den Spark-Erweiterungen. Der Hive Metastore ist ohnehin Bestandteil der neuen Plattform, da Spark SQL es für Schema-Informationen und temporäre Tabellen verwendet.

Die MapR Platform including Spark ist sowohl als Community als auch als Enterprise Edition ab sofort verfügbar. Letztere umfasst Support und ergänzende Funktionen unter anderem zu Hochverfügbarkeit, Disaster Recovery sowie erweiterter Mandantenfähigkeit. (rme)