Cloudera erweitert sein Spark-Angebot
Cloudera Enterprise und die Open-Source-Distribution CDH erhalten in Version 5.5 die UnterstĂĽtzung fĂĽr Spark SQL und MLlib. In KĂĽrze soll Hive-on-Spark folgen.
Apache Spark ist auch bei Clouderas Kunden ein Shooting-Star, wie Firmenmitbegründer Mike Olson vor einiger Zeit im Interview mit heise Developer erzählte. Mehr als 200 Kunden der Hadoop-Distribution setzen demnach Spark bereits ein. Cloudera möchte Spark vor allem für die Bereiche Internet of Things (IoT) und maschinelles Lernen attraktiver gestalten. Mittelfristig soll Spark MapReduce als Standard-Engine zur Datenverarbeitung ablösen. Für die Version 5.5 von Cloudera Enterprise und CDH hat Cloudera die Unterstützung für Spark SQL und MLlib aufgenommen.
FĂĽr strukturierte Daten
Durch die Integration von Spark SQL und die DataFrame API gibt es eine Trennung der API auf der Anwenderseite und der Ausführungsebene. Davon verspricht sich Cloudera laut dem Blog-Beitrag zur Integration von Spark SQL sowohl eine bessere Performance als auch eine vereinfachte API-Schicht. Mit Spark SQL können Entwickler strukturierte Daten verarbeiten und direkt SQL als Abfragesprache verwenden. Diese können sie mit den traditionell in Spark verwendeten RDD-Operationen (Resilient Distributred Datasets) mischen.
Maschinelles Lernen
Die ebenfalls neu aufgenommene Machine Learning Library, kurz MLlib ist ein Framework, das Algorithmen implementiert, die in typischen Szenarien für maschinelles Lernen zum Einsatz kommen. Dazu gehören statistische Funktionen, Filtertechniken und Methoden zur Klassifikation und Transformation.
Spark SQL und MLlib sind Bestandteil von Cloudera Enterprise 5.5 und der kostenlosen Open-Source-Distribution CDH 5.5. Letztere steht auf Clouderas Website zum Download bereit. In KĂĽrze soll auch Hive-on-Spark die Produktionsreife erreichen, wie ein weiterer Blog-Beitrag verkĂĽndet. (rme)