MapR aktualisiert auf Hadoop 2

Der Hadoop-Distributor bedient mit seiner Variante nun die aktuelle Version des Big-Data-Frameworks, die mit YARN eine neue Architektur einführt, bei der auch andere, verteilte und nicht verteilte Programme im Hadoop-Cluster willkommen sind.

In Pocket speichern vorlesen Druckansicht
Lesezeit: 2 Min.
Von
  • Alexander Neumann

MapR Technologies hat kürzlich eine nun auf Apache Hadoop 2.x beruhende neue Version seiner Distribution angekündigt. Hadoop 2.x, das im Herbst 2013 finalen Charakter bekam, verfügt mit YARN (Yet Another Resource Negotiator) über eine neue Architektur, die über den bisherigen MapReduce-Ansatz hinausgeht. Sie ist insofern flexibel, dass sie keine reine MapReduce-Ablaufumgebung mehr ist; andere, verteilte und nicht verteilte Programme sind demnach im Hadoop-Cluster genauso willkommen. Die MapR-Distribution ist im März 2014 erhältlich.

Dank der YARN-Funktionen zur Ressourcenverwaltung und zum Scheduling können sich Hadoop-Anwendungen die im Cluster verfügbaren Rechenressourcen teilen. Das wirkt sich positiv auf dessen Gesamteffizienz aus und führt zu einer besseren Auslastung. Der kombinierte Einsatz von YARN mit der POSIX-kompatiblen Datenplattform von MapR, die wahlfreie Lese-Schreib-Operationen unterstützt, wird als weiterer Vorteil gepriesen. Neben der Ausführung von YARN-Anwendungen in einem Hadoop-Cluster und der gemeinsamen Nutzung der Rechenressourcen lassen sich Daten von dem zugrunde liegenden verteilten Dateisystem und den Datenbanktabellen lesen, auf diese schreiben und aktualisieren.

Die neue Version der MapR-Distribution ist wie Hadoop 2.x abwärtskompatibel, daher lassen sich Hadoops MapReduce- und der YARN-Scheduler simultan auf den gleichen Knoten im Cluster ausführen. Unternehmen, die bislang Hadoop 1.x einsetzen, sollen somit risikolos das Upgrade auf den neuen Hadoop-Scheduler vornehmen können.

Wie andere Hadoop-Distributionen hat MapR zahlreiche Open-Source-Projekte aus dem Hadoop-Ökosystem, darunter Hive, Pig, Solr, Oozie, Flume, Sqoop, Hbase, ZooKeeper, Multitool, Hue, Impala und Cascading aufeinander abgestimmt. Wo andere Anbieter wie Cloudera und Hortinworks komplett auf Open-Source-Software setzen, geht MapR Technologies bei der HDFS-Schicht (Hadoop File System) einen anderen Weg, denn das Unternehmen hat diese gegen eine eigene, proprietäre, aber ebenfalls HDFS unterstützende Datenschicht ausgetauscht. Es versucht damit eine Antwort auf Einschränkungen der Hadoop-Architektur bei Disaster Recovery und nur einmal beschreibbarem Speichersystem zu geben.

Ebenfalls neu ist die MapR Sandbox für Hadoop, eine in eine virtuellen Maschine gepackte MapR-Distribution. Sie enthält unter anderem Lehrgänge für Entwickler, Analysten und Administratoren, die sich über eine grafische Benutzeroberfläche per Point-and-Click bedienen lassen. (ane)