Alpha-Release für Apache Hadoop 2.0

Apache Hadoop 2.0 führt mit YARN eine neue Architektur ein, bei der MapReduce nur noch eine Möglichkeit für eine Ablaufumgebung ist. Andere, verteilte und nicht verteilte Programme sind nun offenbar genauso willkommen im Hadoop-Cluster.

29.05.2012, 11:25 Uhr

Lesezeit: 2 Min.

Developer

Von

Alexander Neumann

Die Entwickler von Apache Hadoop haben ein erstes Alpha-Release der Version 2.0 des Big-Data-Frameworks veröffentlicht. Die noch experimentell bezeichnete neue Generation von Hadoop enthält auch die neue MapReduce-Implementierung YARN. Diese wurde in Hadoops 0.23-Entwicklungsschiene eingeführt und unterteilt die JobTracker-Funktionen des Frameworks in zwei Daemons. Einer fungiert als universeller ResourceManager (RM), der sogenannte ApplicationMaster (AM) ist hingegen für die Zeitablaufsteuerung pro Applikation zuständig.

Die neue YARN-Architektur ist flexibel, insofern sie keine reine MapReduce-Ablaufumgebung mehr ist. MapReduce ist nur noch eine Möglichkeit. Andere, verteilte und nicht verteilte Programme sollen demnach nun genauso willkommen im Hadoop-Cluster sein.

Weitere mit Hadoop 2.0 und Hadoop 0.23 eingeführte Neuerungen sind HDFS Federation (Hadoop File System) und HDFS HA (High Availability mit manuellem Failover). Außerdem lassen sich nun Protokolle abwärtskompatibel machen. Hadoop nutzt dazu Googles RPC-Framework (Remote Procedure Call) Protocol Buffers. Alte Clients können so nun auch mit neueren Clustern "reden".

Ansonsten betreffen die Neuerungen vor allem das Verhalten des Frameworks, doch sind die Performancearbeiten, wie für ein Alpha-Release zu erwarten, beileibe noch nicht abgeschlossen. Außerdem sollen etliche Features noch hinzukommen, etwa HDFS Snapshots und automatische Failover-Möglichkeiten bei HA-Namenode.

Das in Java geschriebene Big-Data-Framework wurde speziell zur Entwicklung skalierbarer, verteilter Anwendungen zur Analyse großer Datenmengen ausgelegt. Es implementierte bislang den von Google entwickelten MapReduce-Algorithmus. Dabei werden Daten über die Knoten eines Hadoop-Clusters verteilt redundant gespeichert, die Analyseprogramme laufen parallel auf allen Knoten und analysieren die jeweils dort vorgehaltenen Daten. (ane)