Projekt Serengeti: Hadoop in der VMware-Cloud

Durch das neue Open-Source-Projekt soll VMwares vSphere zu der Virtualisierungsplattform für Hadoop-Anwendungen werden. Die Technik kann bereits mit unterschiedlichen Hadoop-Distributionen umgehen.

14.06.2012, 12:04 Uhr

Lesezeit: 1 Min.

Developer

Von

Alexander Neumann

VMware hat ein neues Open-Source-Projekt vorgestellt, mit dem sich das Big-Data-Framework Apache Hadoop in virtualisierten und Cloud-Umgebungen einsetzen lassen soll. VMware will erreichen, dass die Serengeti genannte Technik VMwares vSphere zur Hauptvirtualisierungsplattform für Hadoop-Anwendungen werden lässt. Serengeti 0.5 steht als Toolkit unter der Apache-2.0-Lizenz auf der Hosting-Plattform GitHub, aber auch als Binärpaket auf der VMware-Website zum Download bereit. Die Technik kann mit unterschiedlichen Hadoop-Implementierungen umgehen, beispielsweise Hadoop 1.0, CDH 3 von Cloudera, Hortonworks 1.0, Greenplum HD 1.0 sowie von IBM und MapR.

VMware hat außerdem bekannt gegeben, Code an das Hadoop-Projekt zu übergeben. Insbesondere die Komponenten HDFS (Hadoop Distributed File System) und Hadoop MapReduce sollen Codespenden erhalten, auf deren Basis sich Daten und MapReduce-Jobs optimal über eine virtuelle Infrastruktur verteilen lassen sollen.

Aktualisiert wurde auch das Projekt Spring for Apache Hadoop, mit dem Entwickler in ihren mit dem Spring Framework erstellten Java-Anwendungen Hadoop als Analysewerkzeug nutzen sowie aus Spring heraus Hadoop-Services wie MapReduce, Hive und Pig erstellen, konfigurieren und ausführen können. Angekündigt wurde alles diese Woche auf dem Hadoop Summit in San Jose, auf dem auch weitere Hadoop-Unternehmen mit Produktankündigungen aufwarteten, etwa Cloudera, DataStax, Hortonworks, MapR und Pentaho. (ane)