Hadoop-Release beschleunigt Map-Reduce

Version 0.23 des freien Big-Data-Frameworks Hadoop bringt unter anderem Änderungen am Dateisystem HDFS und an der Map-Reduce-Implementierung.

16.11.2011, 10:05 Uhr

Lesezeit: 2 Min.

iX Magazin

Von

Christian Kirsch

Die Apache Software Foundation hat Version 0.23 ihres Big-Data-Frameworks Hadoop veröffentlicht. Es verbessert die Skalierbarkeit des eigenen Dateisystems HDFS, indem es mehrere unabhängige "Namenodes" erlaubt. Bislang war nur einer dieser als Master-Server agierenden Knoten im Cluster möglich. "Datanodes", die die zu verarbeitenden Daten speichern, müssen nicht mehr einem einzelnen Namenode zugeordnet sein, sondern können für alle dieser Master arbeiten.

In einem Blog-Beitrag weist der Hadoop-Distributor Cloudera darauf hin, dass diese "Federation" genannte neue HDFS-Funktion nichts mit Hochverfügbarkeit zu tun habe. Die werde es erst in einer späteren Release von Hadoop 0.23 geben.

Völlig neu geschrieben haben die Entwickler das Map-Reduce-Framework, um Engpässe im bisherigen Jobtracker zu beseitigen. Version 0.23 verzichtet auf das bisheriger Modell, bei dem ein Jobtracker die Arbeit mehrerer Tasktracker koordinierte, bringt es jedoch weiterhin in dem Paket org.apache.hadoop.mapred mit. Die neue Implementierung steckt in org.apache.hadoop.mapreduce, Anwender sollen in Zukunft nur noch sie benutzen.

Für den Produktiveinsatz sei Hadoop 0.23 noch nicht geeignet, warnt Cloudera. "Das ist eine frühe Version, die Anwender zum Testen benutzen können, sodass wir spätere Releases stabilisieren können." Die Mehrheit der für die offiziellen APIs von Hadoop 0.20 geschriebenen Anwendungen werde weiterhin funktionieren, sie müssen jedoch neu übersetzt werden. Allerdings sind noch nicht alle auf Hadoop aufbauenden Produkte der Apache Software Foundation mit der neuen Version kompatibel. (ck)