Nvidia DALI bereitet Daten für Deep Learning vor

Das Training von Deep-Learning-Modellen setzt qualitativ hochwertige, vereinheitlichte Daten voraus. DALI übernimmt das notwendige Preprocessing.

In Pocket speichern vorlesen Druckansicht 6 Kommentare lesen
Nvidia startet GPU Cloud für AI-Entwickler
Lesezeit: 2 Min.
Von
  • Matthias Parbel

Die Aussagekraft von Deep-Learning-Modellen hängt maßgeblich vom Training der Modelle mit geeignetem Datenmaterial ab. Um akkurate Ergebnisse erzielen zu können, müssen die heterogenen Daten standardisiert aufbereitet in die Modelle eingespielt werden. Dabei soll Nivida DALI (Data Loading Library) helfen – und zwar Framework-übergreifend und unabhängig von den spezifischen Preprocessing-Ansätzen in TensorFlow, PyTorch, MXNet und anderen.

Integration von DALI in Trainingspipelines für Deep-Learning-Modelle.

(Bild: Nvidia)

DALI stellt eine Reihe von Bausteinen zur Verfügung, die sich in die Data Pipeline für das Preprocessing der Daten für Deep-Learning-Modelle integrieren lassen, um Prozesse wie das Laden, Dekodieren und Dekomprimieren, aber auch die Formatkonvertierung und Größenänderungen von Daten zu beschleunigen. Als Toolkit von GPU-Hersteller Nvidia beherrscht DALI erwartungsgemäß auch die Einbindung von Grafikprozessoren, die höheren Durchsatz bei der Verarbeitung von Deep-Learning-Tasks versprechen.

Die Preprocessing Pipelines in DALI sind als Datenflussgraph definiert. Jeder Knoten entspricht dabei einem Operator für die Datenverarbeitung. Insgesamt stehen die drei Typen CPU, Mixed und GPU zur Verfügung, die zum Verarbeiten von Daten auf den jeweiligen Prozessorplattformen oder eben deren Kombination ausgelegt sind. Über ein Python-Interface lassen sich die Pipelines Schritt für Schritt aufsetzen, konfigurieren und via Plug-in in das bevorzugte Deep-Learning-Framework integrieren.

In DALI angelegte Pipelines lassen sich bei Bedarf auf andere DL-Frameworks übertragen. Vorgefertigte Plug-ins stehen für TensorFlow, PyTorch und MXNet zur Verfügung. Nähere Informationen zum Funktionsumfang, zum Einrichten sowie zur Integration in die Frameworks finden sich im Developer-Blog von Nvidia. Als Open Source ist der DALI-Code auf GitHub frei verfügbar, Nvidia bietet zudem vorkonfigurierte, getestete PIP-Packages. (map)