Apache Hadoop 2: die neue Generation des Big-Data-Frameworks

Nach knapp zwei Jahren Entwicklung ist Hadoop 2.x fertig. Die neue Version des Big-Data-Frameworks trennt mittels YARN Datenverarbeitung von der Datenhaltung. Die Version ist eine Reaktion auf veränderte Anforderungen an Flexibilität und Verfügbarkeit.

In Pocket speichern vorlesen Druckansicht 2 Kommentare lesen
Lesezeit: 2 Min.
Von
  • Alexander Neumann

Die nun freigegebene Version 2.2 markiert das erste als stabil erachtete Release der Hadoop-2.x-Entwicklung. Die neue Generation des in Java geschriebenen Big-Data-Frameworks, das unter dem Dach der Apache Software Foundation entwickelt wird, entstand, da sich die Anforderungen und Erwartungen an Flexibilität und Verfügbarkeit von Unternehmen wie Facebook oder Twitter seit der Entstehung des Frameworks 2005 massiv verändert haben.

Hadoop wurde damals speziell zur Entwicklung skalierbarer, verteilter Anwendungen zur Analyse großer Datenmengen entworfen. Es implementierte den von Google entwickelten MapReduce-Algorithmus. Dabei werden Daten über die Knoten eines Hadoop-Clusters verteilt redundant gespeichert, die Analyseprogramme laufen parallel auf allen Knoten und analysieren die jeweils dort vorgehaltenen Daten. In der Zwischenzeit hat sich Hadoop zum De-facto-Standard der Big-Data-Szene entwickelt, den auch nahezu zu sämtliche Softwareriesen zu unterstützen versuchen.

Aufgrund der anderen Anforderungen entstand mit Hadoop  2.x die neue, die Datenverarbeitung von der Datenhaltung trennende Architektur YARN (Yet Another Resource Negotiator). Sie ist insofern flexibel, dass sie keine reine MapReduce-Ablaufumgebung mehr ist. MapReduce ist nur noch eine Möglichkeit, andere, verteilte und nicht verteilte Programme sind demnach im Hadoop-Cluster genauso willkommen.

Einige weitere Funktionen sind speziell für die zunehmende Zahl der Anwender in Unternehmen hinzugekommen. So bietet Hadoop schon seit Längerem die Möglichkeit per HDFS Federation mehrere Name Nodes für den ausfallsicheren Betrieb des eigenen Hadoop File System zu kombinieren. Nun kommen Namespaces hinzu, wodurch sich auf einem Hadoop-Dateisystem Bereiche für Test- und Produktivdaten unabhängig voneinander betreiben und über gesonderte Namensräume ansprechen lassen.

Eine weitere Neuheit im Dateisystem von Hadoop sind sogenannte Snapshots, also Read-Only-Kopie, mit denen sich einzelne Verzeichnisse oder ganze Verzeichnisbäume sichern lassen. Für Unternehmensanwender wichtig ist zudem die Interaktion mit HDFS via NFSv3-Gateway. Dabei kann man das Hadoop- als Teil des Nutzer-Dateisystems einhängen.

Bei allen Änderungen haben die Entwickler Wert auf die Grundlage gelegt, dass sich Hadoop 2.x binärkompatibel zu MapReduce-Anwendungen verhält, die mit der Ende 2011 freigegebenen Vorgängerversion Hadoop 1.x gebaut wurden. Sämtliche Neuerungen, darunter auch die Unterstützung für Windows, finden Interessierte in den Release Notes, einen tiefergehenden Eindruck erhält man zudem in der nächsten Ausgabe der iX, die in gut einer Woche am Kiosk ausliegt. (ane)