Microsoft kündigt Machine-Learning-Bibliothek für Apache Spark an

Auf dem Spark Summit hat Microsoft mit MMLSpark eine Machine-Learning-Bibliothek für Apache Spark vorgestellt. Außerdem gab es kleinere Ankündigungen im Bereich R Server und Power BI.

09.06.2017, 10:37 Uhr

Lesezeit: 2 Min.

Developer

Von

Alexander Neumann

Microsoft hat diese Woche den Spark Summit genutzt, um eine Machine-Learning-Bibliothek für das Big-Data-Framework Apache Spark vorzustellen. Mit dem quelloffen auf GitHub bereitgestellten MMLSpark sollen sich mehr Experimente und zeitgemäße Machine-Learning-Verfahren auf sehr großen Datenmengen nutzen lassen. Die Bibliothek bietet eine konsistente API für den Umgang mit verschiedenen Arten von Daten wie Text oder kategorialen Variablen. Mit ihr lassen sich die Daten an das Modell weitergeben, und die Bibliothek kümmert sich dann um den Rest. Sie ermöglicht außerdem, den Funktionsraum und den Algorithmus zu ändern, ohne die Pipeline neu schreiben zu müssen.

Mit einem vorgeschulten Modell – zum Beispiel von Microsofts Cognitive Toolkit (CNTK) – können Anwender vorkonstruierte, neuronale Netze wie ResNet verwenden, um hochauflösende Bilder skalierbar zu extrahieren und diese dann an gewöhnliche Machine-Learning-Modelle wie logistische Regressionen oder Klassifkationsverfahren wie Decision Forest weiterzugeben.

Ist ein vorgeschultes Modell jedoch nicht geeignet, weil die Aufgabe so speziell ist, dass man ein ein eigenes DNN-Modell (Deep Neural Network) trainieren muss, lassen sich mit der Bibliothek die Spark-Worker-Knoten verwenden, um große Datasätze vor dem DNN-Training vorzuarbeiten und zu verdichten. Danach soll man die die Daten beschleunigt mit einer GPU trainieren und schließlich das Modell an die Worker-Knoten für ein skalierbares Scoring übermitteln können.

Für einen kompletten End-to-End-Workflow der Bildverarbeitung reicht die DNN-Integration meist nicht aus, weil normalerweise die Bilder vorverarbeitet werden müssen, damit sie die richtige Form haben, bevor sie an DNN-Modelle übergeben werden. MMLSpark kann OpenCV-basierte Bildtransformationen einlesen und die Daten dann vorbereiten.

Schließlich hat das Unternehmen sein Engagement für die Spark Engine durch eine Reihe kleinerer Ankündigungen im Bereich R Server und Power BI zu verdeutlichen versucht. (ane)