DataBricks optimiert sein Spark-Cloud-Angebot für Deep Learning

Das maßgeblich an der Spark-Entwicklung beteiligte Unternehmen erweitert Apache Spark um Deep-Learning-Bibliotheken und GPU-Support.

28.10.2016, 15:05 Uhr

Lesezeit: 2 Min.

Developer

Von

Rainald Menge-Sonnentag

Das von den Apache-Spark-Machern gegründete Unternehmen Databricks erweitert sein Cloud-basiertes Apache-Spark-Angebot speziell für Anwendungen aus dem Bereich Maschinelles Lernen. Wesentlich ist dabei vor allem die Optimierung zur Verwendung von GPUs. Im Bereich Deep Learning haben Grafikprozessoren gegenüber CPUs den Vorteil, dass sie für die dort benötigte parallele Verarbeitung ausgelegt sind. Databricks Plattform bietet eine automatische Konfiguration zur Verwendung der vorhandenen GPUs und direkte Integration in die Spark-Cluster.

Bibliotheken für Hardware und Deep Learning an Bord

Die benötigten Bibliotheken zum Zugriff auf die Hardware wie die CUDA- und cuDNN-Libraries sind Bestandteil des Pakets. Außerdem bietet Databricks vorkonfigurierte, anpassbare Skripte für einige Deep-Learning-Bibliotheken an. Entwickler können zudem die Open-Source-Software TensorFrames zur Anbindung an TensorFlow nutzen oder das Deep-Learning-Framework Caffe anbinden.

Apache Spark hat mit der im Juli fertiggestellten Version 2.0 die Möglichkeiten im Bereich maschinelles Lernen ausgebaut. Die erweiterte Programmierschnittstelle bietet neben der zuvor vorhandenen, auf RDDs (Resilient Distributed Dataset) basierenden Bibliothek MLib, eine ML-Bibliothek, die auf DataFrames und Datasets beruht. Mit ihr können Entwickler komplette Arbeitsabläufe nach dem Baukastenprinzip zusammenstecken.

Weitere Details finden sich im Databricks-Blog. Das Angebot ist derzeit nur auf Anfrage über das Kontaktformular erhältlich, soll aber innerhalb der nächsten Wochen allgemein verfügbar sein. Databricks bietet die Plattform zunächst für Amazon EC2 g2.2xlarge mit einer GPU und g2.8xlarge mit vier GPUs an. Amazons g2-Instanzen sind für grafikintensive Anwendungen ausgelegt. Spark-Installationen auf den auf GPU-Datenverarbeitungsanwendungen optimierten EC2-p2-Instanzen mit bis zu 16 GPUs sollen in Kürze folgen.

Siehe dazu auf heise Developer: