Hadoop-Release beschleunigt Map-Reduce
Version 0.23 des freien Big-Data-Frameworks Hadoop bringt unter anderem Änderungen am Dateisystem HDFS und an der Map-Reduce-Implementierung.
- Christian Kirsch
Die Apache Software Foundation hat Version 0.23 ihres Big-Data-Frameworks Hadoop veröffentlicht. Es verbessert die Skalierbarkeit des eigenen Dateisystems HDFS, indem es mehrere unabhängige "Namenodes" erlaubt. Bislang war nur einer dieser als Master-Server agierenden Knoten im Cluster möglich. "Datanodes", die die zu verarbeitenden Daten speichern, müssen nicht mehr einem einzelnen Namenode zugeordnet sein, sondern können für alle dieser Master arbeiten.
In einem Blog-Beitrag weist der Hadoop-Distributor Cloudera darauf hin, dass diese "Federation" genannte neue HDFS-Funktion nichts mit Hochverfügbarkeit zu tun habe. Die werde es erst in einer späteren Release von Hadoop 0.23 geben.
Völlig neu geschrieben haben die Entwickler das Map-Reduce-Framework, um Engpässe im bisherigen Jobtracker zu beseitigen. Version 0.23 verzichtet auf das bisheriger Modell, bei dem ein Jobtracker die Arbeit mehrerer Tasktracker koordinierte, bringt es jedoch weiterhin in dem Paket org.apache.hadoop.mapred
mit. Die neue Implementierung steckt in org.apache.hadoop.mapreduce
, Anwender sollen in Zukunft nur noch sie benutzen.
Für den Produktiveinsatz sei Hadoop 0.23 noch nicht geeignet, warnt Cloudera. "Das ist eine frühe Version, die Anwender zum Testen benutzen können, sodass wir spätere Releases stabilisieren können." Die Mehrheit der für die offiziellen APIs von Hadoop 0.20 geschriebenen Anwendungen werde weiterhin funktionieren, sie müssen jedoch neu übersetzt werden. Allerdings sind noch nicht alle auf Hadoop aufbauenden Produkte der Apache Software Foundation mit der neuen Version kompatibel. (ck)