Ressourcenschonend: Effiziente KI-Sprachmodelle ohne Matrixmultiplikation

Forscher entwickeln Sprachmodelle, die ohne speicherintensive Matrixmultiplikationen auskommen und dennoch mit modernen Transformern konkurrieren können sollen.

43

(Bild: Alexander Lukatskiy/Shutterstock.com)

27.06.2024, 16:46 Uhr

Lesezeit: 3 Min.

Von

Dr. Volker Zota

Forscher aus den USA und China haben eine neue Methode zur Optimierung von KI-Sprachmodellen vorgestellt. Damit sollen Large-Language-Modelle (LLMs) deutlich weniger Speicher und Rechenleistung benötigen als die aktuellen LLM und dennoch qualitativ vergleichbare Ergebnisse liefern. Diese "MatMul-free Language Models" getauften Modelle wollen dies durch einen weitgehenden Verzicht auf ressourcenintensive Matrixmultiplikationen (MatMul) erreichen. Matrixmultiplikationen sind die zentralen Rechenoperationen von Deep-Learning- beziehungsweise den speziellen Transformer-Architekturen, die von großen Sprachmodellen wie GPT-3/4 oder PaLM verwendet werden. Diese Berechnungen sind für den Großteil des Ressourcenbedarfs verantwortlich und stellen eine Hürde für die Skalierung der Modelle dar. Vereinfacht gesagt ersetzen "MatMul-freie Sprachmodelle" möglichst viele komplexe Berechnungen durch einfachere Additionen.

Additionen statt Multiplikationen

Die Architektur der MatMul-freien Modelle verwendet additive Operationen in dichten Schichten (dense layers, auch fully connected layers) – Grundbausteine neuronaler Netze – sowie paarweise Multiplikationen von Zahlen in Listen (Hadamard-Produkte). Sogenannte ternäre Gewichte ersetzen ebenfalls MatMul-Operationen durch einfache Additionen und Subtraktionen. Während gewöhnliche Gewichte zig Werte annehmen können, sind ternäre Gewichte auf die Werte -1, 0 und 1 beschränkt, was die Berechnungen wesentlich vereinfacht und beschleunigt. Ferner optimierte das Forscherteam eine spezielle Netzwerkarchitektur, die sogenannte "Gated Recurrent Unit" (GRU). Die GRU speichert und aktualisiert Informationen über gewisse Zeiträume, ist also so etwas wie das (Kurzzeit-)Gedächtnis des neuronalen Netzwerks. Durch gezielte Anpassungen gelang es den Wissenschaftlern, die GRU so zu modifizieren, dass auch sie nur noch elementare Rechenoperationen ausführt. Wer tiefer in die Mathematik und Herausforderungen solcher Modelle eintauchen will, findet die Veröffentlichung "Scalable MatMul-free Language Modeling" (PDF) als Preprint auf arXiv.org.

Lesen Sie auch

Grundlagen des maschinellen Lernens erklärt

Durch die Vereinfachungen konnte das Team nach eigenen Angaben auch für GPUs gedachte Modelle derart optimieren, dass sich der Speicherbedarf während des Trainings um bis zu 61 Prozent reduzieren ließ. Während der Inferenz, also bei der Verwendung der Modelle zur Vorhersage, sank der Speicherverbrauch durch spezielle Kernel sogar um mehr als das Zehnfache, heißt es in der Veröffentlichung. Außerdem entwickelten die Forscher eine Hardwarelösung auf Basis eines Field Programmable Gate Array (FPGA) vom Typ Intel D5005 Stratix 10. Diese könne ein angepasstes MatMul-freies LLM mit 2,7 Milliarden Parametern bei einer Leistungsaufnahme von nur 13 Watt ausführen, während gleich schnelle GPU-basierte Systeme für den Betrieb derartiger Modelle mehrerer Hundert Watt veranschlagen würden. Laut dem Haupautor der Studie, Jason Eshraghian, bieten die MatMul-freien Modelle dennoch eine vergleichbare Leistung zu hochpräzisen Transformern, haben jedoch einen deutlich geringeren Speicherbedarf. Eshraghian betont, dass der Leistungsvorsprung herkömmlicher Transformer mit zunehmender Modellgröße abnehme.

Vergleich mit anderen Transformern

Vergleiche mit modernen Transformer-Architekturen zeigten, dass das neue Modell auf verschiedenen Benchmark-Datensätzen eine konkurrenzfähige Leistung erbringt. Allerdings erfolgte bisher nur eine Gegenüberstellung mit dem auf Übersetzungen optimierten Transformer++.

Eshraghian sieht in der Arbeit an den MatMul-freien Modellen einen wichtigen Beitrag, um die Entwicklung künftiger Hardware-Beschleuniger zu optimieren. Die Ergebnisse könnten speziell für den Einsatz von LLMs auf Geräten mit begrenzten Ressourcen wie Smartphones oder Embedded Devices interessant werden.