KI: Microsoft und NVIDIA entwerfen großes generatives Sprachmodell

Gemeinsam haben Microsoft und NVIDIA einen großen Sprachprozessor produziert. Mit seiner Hilfe sollen sich künftig KI-Modelle rascher trainieren lassen.

In Pocket speichern vorlesen Druckansicht
KI

(Bild: whiteMocca / shutterstock.com)

Lesezeit: 1 Min.
Von
  • Nicole Bechtel

Microsoft und NVIDIA haben gemeinsam ein leistungsstarkes Sprachmodell entwickelt. Das Megatron-Turing Natural Language Generation Model (MT-NLG) wurde mit 530 Milliarden Parametern trainiert. Es ist größer und komplexer als die beiden Vorgänger Turing NLG 17B von Microsoft (17 Milliarden Parameter) und Megatron-LM von NVIDIA (8 Milliarden) und soll eine "unübertroffene" Genauigkeit beim Erzeugen natürlicher Sprache demonstrieren. Im Vergleich: GPT-3 verfügt über 175 Milliarden Parameter. Lediglich Googles Switch Transformer übertrifft mit 1,6 Billionen Parametern das MT-NLG.

Die Größe der NLP-Modelle steigt exponentiell.

(Bild: NVIDIA)

Als Hardware kam NVIDIAs Selene-Supercomputer zum Einsatz mit 560 DGX A100-Servern, von denen jeder acht A100 GPUs mit 80 GByte VRAM besitzt. Verbunden sind die GPUs über NVLink und NVSwitch. Um Rechenleistung und Speicherverbrauch zu reduzieren, griffen die beiden Unternehmen auf die Bibliothek DeepSpeed zurück, die sich für das Trainieren großer, verteilter Modelle eignet. Für das Tensor-Slicing, das das Modell innerhalb eines Knotens skaliert, nutzen sie den Transformer Megatron-LM.

Als Grundlage für das Training diente The Pile, ein Sprachmodellierdatenset, das AI-Forschende Open Source bereitstellen. Die einzelnen Trainingsschritte lassen sich im Blog von NVIDIA einsehen.

Natural Language Processing (NLP) verarbeitet natürliche Sprache mithilfe von Regeln und Algorithmen. Dabei setzt es Methoden aus der Sprachwissenschaft ein, die mit künstlicher Intelligenz und Informatik verknüpft werden. Mit MT-NLG lassen sich KI-Modelle künftig günstiger und schneller trainieren.

(nb)