MapR integriert Spark-Projekt in Hadoop-Distribution

Apache Spark wird nachgesagt deutlich schneller als Hadoops MapReduce-Implementierung Daten abfragen und analysieren zu können.

11.04.2014, 13:26 Uhr

Lesezeit: 1 Min.

Developer

Von

Alexander Neumann

Der Hadoop-Distributor MapR Technologies ist mit Databricks, dem maßgeblichen Entwickler des Apache-Projekts Spark eine Partnerschaft eingegangen. Außerdem hat das Unternehmen angekündigt, dass seine Hadoop-Distribution nun auch die Spark-Software und ihre fünf Unterprojekte enthält. Dadurch kommt die MapR-Distro nun wohl auf rund 20 Open-Source-Projekte, deren Zusammenspiel sie aufeinander abstimmt.

Spark ist ein Scala-Framework zur Echtzeitdatenanalyse, das vorrangig im Umfeld von HDFS- oder NFS-Installationen (Hadoop File System/Network File System) eingesetzt werden kann. Ihm wird nachgesagt, durch das ihm zugrunde liegende In-Memory-Modell deutlich schneller als Hadoops MapReduce-Implementierung Daten abfragen und analysieren zu können.

Wie andere Hadoop-Distributionen hat MapR zahlreiche Open-Source-Projekte aus dem Hadoop-Ökosystem, darunter Hive, Pig, Solr, Oozie, Flume, Sqoop, Hbase, ZooKeeper, Multitool, Hue, Impala und Cascading aufeinander abgestimmt. Wo andere Anbieter wie Cloudera und Hortonworks komplett auf Open-Source-Software setzen, geht MapR Technologies bei der HDFS-Schicht (Hadoop File System) einen anderen Weg, denn das Unternehmen hat sie gegen eine eigene, proprietäre, aber ebenfalls HDFS unterstützende Datenschicht ausgetauscht. Es versucht damit eine Antwort auf Einschränkungen der Hadoop-Architektur bei Disaster Recovery und nur einmal beschreibbaren Speichersystemen zu geben. (ane)