Cloudera setzt auf Apache Spark 2.0

Die aktuelle Version der Analyseplattform soll vor allem die Bereiche Streaming und maschinelles Lernen verbessern. Neben Spark 2.0 enthält Clouderas Hadoop-Distribution das 1.0-Release von Apache Kudu.

2

12.10.2016, 14:48 Uhr

Lesezeit: 2 Min.

Developer

Von

Rainald Menge-Sonnentag

Der Anbieter einer der größten Hadoop-Distributionen Cloudera hat die neue Version seiner Plattform vorgestellt. Bereits im vergangen Jahr spielte die Integration von Apache Spark eine große Rolle. Nun setzt Cloudera auf die in diesem Jahr erschienene Version 2.0, die wesentliche Neuerungen im Vergleich zum Vorgänger mitbringt. Zu den Highlights gehört die einheitliche Behandlung von Datenströmen und Batch-Daten, die die Verarbeitung von Streams vereinfacht, wie sie beispielsweise bei Sensoren im Internet der Dinge anfallen.

Die Dataset-API war in Version 1.6 zunächst ein experimentelles Feature von Spark und ist seit 2.0 fester Bestandteil. Sie kombiniert die Vorzüge wie relationaler Zugriff und hohe Performance der vorhandenen DataFrames mit der von Java oder Scala gewohnten Typsicherheit. Im vergangenen Jahr hat Apache Spark zudem deutliche Fortschritte im Bereich maschinelles Lernen gemacht. So entsteht die auf DataFrames und Datasets beruhende Bibliothek ML als Ergänzung zu der vorhandenen Machine Learning Library (MLib), die auf RDDs basiert (Resilient Distributed Dataset).

Kudu springt auf Version 1.0

Cloudera hatte Kudu 2015 zunächst als Betaversion veröffentlicht. Das Speichersystem soll HDFS und HBase auf dem unteren Hadoop-Layer ergänzen, da die beiden Systeme für wahlfreie Abfragen schlecht geeignet sind. Kudu, das der Hadoop-Spezialist inzwischen der Apache Foundation übergeben hat, besitzt eine spaltenorientierte Struktur und soll besonders für Echtzeitanalysen zum Einsatz kommen.

Das Dateisystem bietet unmittelbare Lese- und Schreibfähigkeit für häufige Updates und Suchen. Es soll sich besonders durch eine hohe Fehlertoleranz auszeichnen. Zudem skaliert es bis zu mehreren hundert Knoten. Kudu bietet eine Integration zu Spark und Verbindungen zu MapReduce und Impala.

Siehe dazu auf heise Developer: