Baidu gibt Deep-Learning-System als Open Source frei

Wie zuvor schon Google, IBM, Facebook und Microsoft beschreitet auch der Suchmaschinenexperte Baidu beim Thema Deep Learning den Open-Source-Weg.

02.09.2016, 13:56 Uhr

Lesezeit: 2 Min.

Developer

Von

Alexander Neumann

Der chinesische Suchmaschinenexperte Baidu hat auf der Baidu-World-Konferenz in Peking das Machine-Learning-System PaddlePaddle als Open-Source-Projekt bereitgestellt. Paddle steht für "Parallel Distributed Deep Learning" und wurde bei Baidu offenbar in vielen Projekten für Deep-Learning- und Cognitive-Computing-Aufgaben eingesetzt. Genannt werden etwa die Transkription in Chinesisch bei Video- oder Fernsehaufzeichnungen oder der Einsatz in Sprache-zu-Text-Systemen auf Smartphones.

Mithilfe von C++ und Python

Die Kernbibliotheken von PaddlePaddle sind offenbar aus Performancegründen und wegen der Möglichkeit, Beschleunigungen über GPUs und Intels SSE/AVX-Instruktionen zu erreichen, in C++ geschrieben. Doch das Projekt umfasst mit PyDataProvider2 auch eine Python-Bibliothek, die den Trainingsprozess anscheinend vereinfacht. Sie setzt auf Multithreading und eine wohl einfache Cache-Strategie. Entwickler verwenden einen Python-Decorator (@provider), um eine Funktion als Datenquelle festzulegen, während die Bibliothek alle anderen Aufgaben wie die Parallelisierung des Datentranfers übernimmt.

Die Training-Modelle und die Konzeption der Vorhersagen sind offenbar einfach zu steuern. Die Trainings lassen sich über einen Rechner-Cluster verteilen, entweder mit oder ohne die GPUs. Um den Start mit PaddlePaddle einfach zu halten, werden einige Beispielprojekte bereitgestellt. Einige der PaddlePaddle-Funktionen sind von anderen Machine-Learning-Frameworks mit Python-Frontend wie Scikit-learn her vertraut. Ihnen fehlt aber die native GPU-Unterstützung, und sie tun sich auch beim Aggregieren über verschiedene Rechenknoten eines Clusters schwer.

Die Sourcen des neuen Open-Source-Projekts finden sich auf GitHub wieder. Dokumentation und Spezifikation sind sowohl auf Englisch als auch auf Chinesisch verfügbar.

Im Trend

Große IT-Unternehmen liefern sich derzeit geradezu ein Wettrennen beim Veröffentlichen oft quelloffener Projekte für maschinelles Lernen: Googles TensorFlow, IBMs SystemML, Microsofts Distributed MachineLearning Toolkit oder auch Facebooks Bibliothek Torchnet sind prominente Beispiele, die im letzten oder dieses Jahr quelloffen zur Verfügung gestellt wurden. (ane)