Cloudera integriert In-Memory-Analyzer in seine Hadoop-Distribution

Mit Apache Spark hat der Hadoop-Experte ein In-Memory-Framework zur Echtzeitdatenanalyse ins Portfolio aufgenommen, das deutlich schneller als die MapReduce-Implementierung des Big-Data-Frameworks sein soll.

In Pocket speichern vorlesen Druckansicht
Lesezeit: 2 Min.
Von
  • Alexander Neumann

Das Softwareunternehmen Cloudera hat im Zuge einer Neuausrichtung seiner Hadoop-Distributionen Apache Spark in sein Angebot integriert. Das Apache-Projekt ist ein Framework zur Echtzeitdatenanalyse, das vorrangig im Umfeld von Hadoop-Installationen eingesetzt werden kann. Ihm wird nachgesagt, durch das ihm zugrunde liegende In-Memory-Modell deutlich schneller als Hadoops MapReduce-Implementierung Daten abfragen und analysieren zu können.

Lange Zeit war MapReduce bei Aufgaben wie der Verarbeitung von Datenströmen und Maschinelles Lernen gesetzt, doch das Programmiermodell gilt als langsam, da es viele Mehrfachlesungen zur Analyse benötigt. Spark kann hingegen diese Aufgabe durch seinen hauptspeicherresidenten Ansatz angehen, während die Daten noch im Arbeitsspeicher liegen.

Es beruht auf Hadoops neuer Architektur YARN (Yet Another Resource Negotiator), die Datenverarbeitung von der Datenhaltung trennt sowie neben MapReduce auch andere, verteilte und nicht verteilte Algorithmen im Hadoop-Cluster willkommen heißt. Spark bietet APIs für Java, Scala und Python. Es kann nativ Daten aus dem HDFS (Hadoop File System), der Hadoop-HBase-Datenbank und dem Datenspeicher Cassandra lesen.

Derzeit hat Spark Incubation-Status, was bedeutet, dass es sich noch im Prozess zur Aufnahme als vollwertiges Apache-Projekt befindet. Ursprünglicher Entwickler von Spark ist das AMPLab der University of California in Berkeley. Intel und Yahoo sind zwei große Unternehmen, die das Framework bereits einsetzen.

Die Umstrukturierung des Cloudera-Angebots hat drei kommerzielle Distributionen zur Folge: Basic Edition, Flex Edition und Enterprise Hub Edition. Bei der Flex-Distro können Anwender die Basis-Hadoop-Version um ein weiteres Werkzeug ergänzen, die Enterprise Hub Editon enthält das Gesamtpaket sämtlicher Tools, die Cloudera mit Hadoop integriert hat, darunter HBase, Backup-Features, die SQL-Analyse Impala und eben auch Spark. Im Zuge der Neuausrichtung wurde außerdem die kostenlose Distribution Cloudera Standard in Cloudera Express umbenannt. (ane)