Über 400 Änderungen in Hadoop 2.4

Die wichtigsten Änderungen des neuen Hadoop-Releases sind die Unterstützung von Rolling Upgrades, HTTPS-Support und die Einführung von Access Control Lists in HDFS sowie automatische Ausfallsicherheit und präemptives Multitasking bei YARN.

In Pocket speichern vorlesen Druckansicht
Lesezeit: 2 Min.
Von
  • Alexander Neumann

Auch die Entwickler des Big-Data-Frameworks Apache Hadoop setzen auf häufigere Releases. Denn auf das im Herbst erschienene Hadoop 2.2, das zugleich die erste als stabil erachtete Version der Hadoop-2.x-Entwicklung markierte, folgt nun mit Hadoop 2.4 das zweite größere Release innerhalb eines halben Jahres. Die Entwickler zählen über 400 JIRA-Einträge, die mit der neuen Version geschlossen wurden.

Hadoop 2.x entstand vor dem Hintergrund, dass sich die Anforderungen und Erwartungen an Flexibilität und Verfügbarkeit von Unternehmen wie Facebook oder Twitter seit der Entstehung des Frameworks 2005 massiv verändert haben. Hadoop wurde damals speziell für die Entwicklung skalierbarer, verteilter Anwendungen zur Analyse großer Datenmengen entworfen. Es implementierte den von Google entwickelten MapReduce-Algorithmus. In der Zwischenzeit hat sich Hadoop zum De-facto-Standard der Big-Data-Szene entwickelt.

Aufgrund der anderen Anforderungen entstand mit Hadoop 2.x die neue, Datenverarbeitung von Datenhaltung trennende Architektur YARN (Yet Another Resource Negotiator). Sie ist insofern flexibel, dass sie keine reine MapReduce-Ablaufumgebung mehr ist. MapReduce ist nur noch eine Möglichkeit – andere, verteilte und nicht verteilte Programme sind demnach im Hadoop-Cluster genauso willkommen.

Die wichtigsten Änderungen bei Hadoop 2.4 sind im Hadoop File System (HDFS) die native Unterstützung sogenannter Rolling Upgrades, vollständiger HTTPS-Support und die Einführung von Zugriffssteuerungslisten (Access Control Lists). Im Bereich YARN sind offenbar die Unterstützung automatischer Failovers durch den Ressourcen-Manager und striktere Service Level Agreements im YARN CapacityScheduler über präemptives Multitasking. (ane)