Hadoop 2.7 veröffentlicht

Das erste größere Hadoop-Release des Jahres empfehlen seine Entwickler zwar noch nicht für den Produktiveinsatz, es bietet aber die Möglichkeit, sich mit neuen Features, vor allem bei HDFS angeht, auseinanderzusetzen.

In Pocket speichern vorlesen Druckansicht
Hadoop 2.7 veröffentlicht
Lesezeit: 1 Min.
Von
  • Julia Schmidt

Die Hadoop-Community hat die Version 2.7.0 des Frameworks für verteilt arbeitende Software zum Download freigegeben. 535 Issues haben die Entwickler dafür abgearbeitet, wobei viele sich auf das Hadoop File System (HDFS) beziehen. So lassen sich dort nun beispielsweise Anteile pro Speichertyp anlegen oder Dateien mit Blöcken variabler Länge nutzen. Unter anderem wurde ein von Twitter vorgeschlagenes Tool namens nntop eingeführt, das ähnlich wie top unter Linux arbeitet und eine Liste der aktivsten Nutzer eines HDFS-Namensknotens bereitstellt. Damit können Entwickler sehen, welche Nutzer den meisten Traffic an einem Knoten erzeugen.

Darüber hinaus ist in YARN (Yet Another Resource Negoiator) nun eine Beta-Version für das automatisch geteilte und globale Caching von in YARN lokalisierten Ressourcen enthalten und in MapReduce besteht die Option, die Anzahl gleichzeitig aktiver Map- und Reduce-Aufgaben eines Jobs zu begrenzen. Dort konnten die Entwickler unter anderem auch FileOutputCommitter für sehr große Jobs mit vielen Ausgabedateien beschleunigen. Eine komplette Liste aller Neuerungen, sind in der Dokumentation zu finden.

Bis man die genannten Neuerungen in Produktivsystemen einsetzen kann, sollte man den Entwicklern zufolge noch die nächsten ein bis zwei Revisionsnummern abwarten, da man erst noch einige Schwächen durch Tests und Ähnliches ausmerzen wolle. Außerdem ist zu beachten, dass die aktuelle Version mindestens JDK 7 als Laufzeitumgebung braucht, da der Support für JDK 6 eingestellt wurde. (jul)