Microsoft verschiebt die NLP-Grenzen: Modelle bis zu 100 Milliarden Parametern

Die Genauigkeit von KI-Anwendungen profitiert von größeren Trainingsmodellen. Microsofts Libraries DeepSpeed und Turing-NLG eröffnen dafür neue Möglichkeiten.

4

(Bild: whiteMocca/Shutterstock.com)

11.02.2020, 19:12 Uhr

Lesezeit: 4 Min.

Developer

Von

Matthias Parbel

Die Forschungsabteilung von Microsoft hat DeepSpeed veröffentlicht, eine neue Open-Source-Bibliothek für das Training von Deep-Learning-Modellen. Die zu PyTorch kompatible Bibliothek soll die Effizienz und Handhabung beim Training besonders großer Modelle mit bis zu 100 Milliarden Parametern verbessern. Dazu trägt unter anderen der integrierte Zero Redundancy Optimizer (ZeRO) bei, der für optimierte Speichernutzung sorgt. Davon profitiert hat bereits Turing Natural Language Generation (T-NLG), das mit 17 Milliarden Parametern bisher größte Modell für Natural Language Processing (NLP), das aus Microsofts Project Turing hervorgegangen ist.

Mehr Genauigkeit beim Natural Language Processing

Nicht nur Microsoft, sondern eine stetig wachsende Zahl von Unternehmen aus allen Branchen erhoffen sich maßgebliche Impulse für ihr Geschäft oder sogar den Vorstoß in neue Geschäftsfelder durch den Einsatz von künstlicher Intelligenz für die Analyse und Verarbeitung natürlicher Sprache. Entscheidend für die Qualität und Genauigkeit des Natural Language Processing ist die Größe – im Hinblick auf die betrachteten Parameter – der zum Training verwendeten Deep-Learning-Modelle. Je größer die Modelle, desto höher ist allerdings der Trainingsaufwand. Um die Kosten für die Infrastruktur, die Implementierung des Programmcodes und den Zeitaufwand in Grenzen zu halten, kommen angepasste Frameworks und Librarys für die Optimierung zum Einsatz – wie etwa Facebooks ML-Framework PyTorch.

Mit DeepSpeed greift Microsoft die Vorarbeit etablierter Modelle wie OpenAI GPT-2, NVIDIA Megatron-LM und Google T5 auf und will diese durch erweiterte Trainingstechniken wie ZeRO, verteiltes Training, gemischte Genauigkeit oder Kontrollpunkte über PyTorch-kompatible APIs ergänzen. Mit rund 11 Milliarden Parametern zählt Google T5 zu den derzeit größten Modellen. In Verbindung mit ZeRO soll DeepSpeed die Modellgröße schon heute um den Faktor 10 steigern. Perspektivisch peilt Microsoft sogar Modelle mit 200 Milliarden oder gar Trillionen von Parametern an. Dazu soll ZeRO die bisherigen Grenzen der Daten- und der Modellparallelität überwinden.

Optimierung beim Modelltraining mit DeepSpeed und ZeRO

(Bild: Microsoft)

ZeRO beseitigt Speicherredundanzen über datenparallele Prozesse hinweg, indem es Modell-Zustände (Parameter, Gradienten und Zustand des Optimierers) partitioniert, anstatt sie zu replizieren. Um die Berechnungsgranularität und das Kommunikationsaufkommen der Datenparallelität beizubehalten, nutzt ZeRO während des Trainings einen dynamischen Kommunikationszeitplan zur Verteilung der erforderlichen Zustände über die verschiedenen Geräte hinweg. Einen Überblick zu DeepSpeed sowie eine kurze Einführung zur Funktionsweise von ZeRO samt Video bietet der Blogbeitrag zur Freigabe der Library, grundlegende Details zu ZeRO finden sich in einem Forschungspapier.

Turing-NLG mit 17 Milliarden Parametern

Aus den Forschungsarbeiten im Rahmen des Project Turing ist das NLP-Modell Turing Natural Language Generation (T-NLG) hervorgegangen. Es hat nicht nur von den durch DeepSpeed und ZeRO zu erzielenden Fortschritten profitiert, sondern ist mit 17 Milliarden Parametern auch das derzeit umfangreichste Trainingsmodell. Bei typischen NLP-Aufgaben wie der Beantwortung von Fragen, der Gesprächsführung oder auch der inhaltlichen Zusammenfassung und Analyse von Texten tritt es gegen etablierte Language Modelle (LM) wie BERT, GPT-2 oder Nvidias Megatron-LM an. Als generatives, auf Transformer basierendes Sprachmodell kann T-NLG selbstständig Wörter ergänzen, um etwa unvollständige Sätze zu komplettieren oder offene Fragen unmittelbar zu beantworten.

Da Microsoft zufolge DL-Modelle mit mehr als 1,3 Milliarden Parametern sich nicht als Ganzes auf Single-GPU-Systemen (mit 32 GByte RAM) ausführen lassen, müssen sie parallelisiert oder über mehrere GPUs verteilt werden. Für Vergleichstests haben die Microsoft-Forscher ein DGX-2-System von Nvidia herangezogen und das T-NLG-Modell via Tensor Slicing auf dem Megatron-LM-Framework über vier Nvidia V100-GPUs verteilt. Durch den Einsatz von DeepSpeed mit ZeRO habe sich dabei der Modellparallelisierungsrad von 16 auf 4 reduzieren lassen, bei gleichzeitiger Vervierfachung der Batchgrößen. Im Vergleich zum Megatron-LM allein habe sich zudem die erforderliche Trainingsdauer um den Faktor drei verringern lassen.

Das resultierende T-NLG-Modell mit 78 Transformer-Ebenen übertreffe sowohl Nvidias Megatron-LM als auch Open AI GPT-2 bei typischen Aufgaben wie WikiText-103 (Perplexity) und LAMBADA (Next Word Prediction Accuracy). Detaillierte Ergebnisse und Benchmarks sind dem Blogbeitrag zu T-NLG zu entnehmen. Im Rahmen einer Private Demo stellt Microsoft das Modell einer kleinen Gruppe von Anwendern aus dem akademischen Umfeld für erste Tests und Feedback zur Verfügung. (map)