Horovod: GPU-Cluster für Deep Learning effektiv nutzen

Will man Deep-Learning-Modelle schnell auf verteilten Systemen trainieren, hilft das Framework Horovod. Es skaliert ein Trainingsskript auf mehrere GPUs.

Artikel verschenken
In Pocket speichern vorlesen Druckansicht
Lesezeit: 12 Min.
Von
  • Ramon Wartala
Inhaltsverzeichnis

Deep-Learning-Modelle werden umso leistungsfähiger, je mehr Daten für das Training zur Verfügung stehen. Diese Daten entstehen zum Beispiel petabyteweise bei der Entwicklung moderner Fahrassistenzsysteme der zweiten und dritten Generation im Rahmen von Software-defined Vehicles.

Um bei der Entwicklung der neuen Generation eines Deep-Learning-Modells nicht Wochen und Monate auf das Ergebnis eines Trainingslaufs zu warten, sind effiziente Skalierungstechniken erforderlich.

Mehr zu Künstlicher Intelligenz

Wie sich das Modelltraining einfach und effektiv über mehrere GPU-Systeme verteilen lässt, zeigt das von Uber ins Leben gerufene Open-Source-Framework Horovod. Es liegt seit 2018 auf GitHub, die Linux Foundation verwaltet es.