Apache Spark für Hortonworks Data Platform zertifiziert

Das Framework zur Echtzeitdatenanalyse ist gemäß dem "YARN Ready Program" für die Hadoop-Distribution von Hortonworks zertifiziert.

27.06.2014, 14:17 Uhr

Lesezeit: 2 Min.

Developer

Von

Alexander Neumann

Laut dem Hadoop-Distributor Hortonworks ist Apache Spark nun gemäß dem "YARN Ready Program" vollständig in der Lage, sich in die YARN-Architektur der Hortonworks Data Platform einzuklinken. Das bedeutet, dass das Framework zur Echtzeitdatenanalyse neben anderen Workloads in einem Hadoop-Cluster bereitgestellt werden kann. Zuvor waren die speicher- und CPU-intensiven Spark-Anwendungen in einem separaten Cluster aufzusetzen.

Dem in den Programmiersprachen Scala, Java und Python geschriebenen Spark wird nachgesagt, durch das ihm zugrunde liegende In-Memory-Modell deutlich schneller als Hadoops MapReduce-Implementierung Daten abfragen und analysieren zu können. YARN (Yet Another Resource Negotiator) ist die mit Hadoop 2.x eingeführte neue Architektur des Big-Data-Frameworks. Sie ist insofern flexibel, dass sie keine reine MapReduce-Ablaufumgebung mehr ist. MapReduce ist nur noch eine Möglichkeit – andere, verteilte und nicht verteilte Programme wie eben Spark sind demnach im Hadoop-Cluster genauso willkommen.

Ursprünglicher Entwickler von Spark ist das AMPLab der University of California in Berkeley, wo das Framework 2009 erschien, bevor es 2010 zum Open-Source-Projekt wurde. Seit Februar dieses Jahres ist es ein Top-Level-Projekt der Apache Software Foundation. Die Erfinder von Spark haben darüber hinaus mit Databricks eine eigene Firma gegründet. Alibaba, IBM, Intel, Yahoo und die NASA sind einige große Anwender, die das Framework einsetzen. Neben Hortonworks haben auch Cloudera und MapR das Projekt in ihre Distributionen integriert. Außerdem gibt es mittlerweile etliche Integrationen mit Datenbanken wie HBase und Cassandra und anderen Big-Data-Techniken. (ane)