1-Bit-LLMs: Neuer Ansatz will Rechenaufwand für Sprachmodelle reduzieren
Um dem Hardwarehunger von großen Sprachmodellen Herr zu werden, setzt man auf Quantisierung. Einen neuen Ansatz stellen Microsoft-Forscher zur Diskussion.
- Prof. Christian Winkler
Forscher von Microsoft und der Chinesischen Akademie der Wissenschaften haben auf arXiv einen neuen Ansatz veröffentlicht, bei dem sie alle Parameter eines Sprachmodells auf die drei Zahlen -1, 0 und 1 reduzieren und damit ein Modell trainieren (und nicht nur quantisieren oder feintunen). Aufgrund der vielen Parameter der großen Sprachmodelle ist das Training rechenintensiv, sodass es eigene Zahlenformate gibt, die den Speicherbedarf einsparen sollen, etwa Bfloat 16 (BF16) oder FP8. Ihren Ansatz bezeichnen die Forscher als ternär und sprechen reißerisch von einer neuen Ära an 1-Bit-LLMs – wegen der drei möglichen Werte passt das allerdings nicht ganz in ein Bit, sondern man braucht im Mittel log(3)/log(2) = 1,58 Bits zur Darstellung.
Aufgrund der geringen Größe der Parameter ist der Ansatz im Vergleich zu den gängigen Verfahren kostengünstiger in Bezug auf Latenz, Speicher, Durchsatz und Energieverbrauch. Die Trainingsergebnisse sollen laut den Autoren mit den 16-Bit-Verfahren FP16 und BF16 vergleichbar sein; von Spezialhardware, die den trinären Ansatz nativ unterstützt, erwarten die Forscher noch bessere Ergebnisse. Solche Hardware existiert bisher nicht.
Bisherige Quantisierungsansätze
Auch wenn es eigene Datenformate wie BF16 und FP8 gibt, passen große Sprachmodelle mit vielen Milliarden Parametern noch immer nicht auf Grafikkarten für Endanwender, da diese oft nur 16 oder maximal 24 GByte RAM haben. Bei den Spezialbeschleunigern für maschinelles Lernen ist Nvidia ganz klar der Platzhirsch und mittlerweile so groß, dass dem Unternehmen Kartellstrukturen unterstellt werden. Auch ist der Bedarf an Rechenleistung nicht so leicht zu decken: Nvidia sieht bereits die nächste Chipkrise anrollen und OpenAI CEO Sam Altman will mehrere Billionen US-Dollar für mehr Produktionskapazität sammeln.
Alternative Ansätze führen über die Quantisierung, wo man Rechenkapazität über das Verringern der Genauigkeit der Modellparameter erzielen will. Einer dieser Ansätze ist GPTQ, eine geschickte Nutzung von vier Bit für die Gewichte beeinflusst die Ergebnisse hier kaum messbar. Der Algorithmus ist breit im Einsatz, Hugging Face hat ihn sogar in die Transformers-Bibliothek integriert. Abwandlungen davon sind AWQ, das Aktivierungen berücksichtigt, und ExLllamaV2, das mit einer mittleren Anzahl von Bits arbeitet. Es zeigt sich, dass man deutlich bessere Ergebnisse erreichen kann, wenn man mit großen Sprachmodellen arbeitet und diese quantisiert als mit kleinen Sprachmodellen, die ohne Quantisierung arbeiten. Was mit vier Bit geht, kann mit noch weniger Bit klappen – das hat die Optimierer auf den Plan gerufen. Allerdings werden bei einer Quantisierung mit drei Bit schon erhebliche Qualitätsmängel sichtbar – die meisten Autoren empfehlen daher bei GPTQ-ähnlichen Verfahren eher vier Bit.
Prüfung steht aus, Diskussion ist angefacht
Das deutsche Start-up Mobius Labs hat darum das Verfahren Half Quadratic Quantization erfunden und behauptet, dass große Llama-Modelle in dieser Zwei-Bit-Quantisierung besser funktionieren als kleine unquantisierte mit ähnlichem Speicherbedarf. Es muss sich noch zeigen, ob dies unabhängig verifiziert werden kann. Auch wenn der Blogbeitrag einige interessante Details enthält, fehlt noch eine wissenschaftliche Veröffentlichung dazu.
Genau die liefern die Microsoft-Forscher mit ihrem 1,58-Bit-Ansatz nun. Noch nicht ganz klar ist, wie sich diese Funktionen auch rechentechnisch effizient umsetzen lassen, weil der Code im Artikel nicht enthalten ist. Auf Reddit gibt es aber rege Diskussionen dazu und bei Hacker News spekuliert ein angeblicher ehemaliger Lead Architekt von IBM, ob nicht sogar 0,68 Bit genügen würden. Offenbar kommt in den "Markt" der Quantisierung gerade etwas Bewegung. Die nächsten Wochen werden auch in dieser Hinsicht spannend und zeigen, ob sich eine so weitgehende Optimierung durchsetzen kann.
Das arXiv-Paper 1-Bit-LLM findet sich hier.
Ursprünglich wurde in dieser Meldung der englische Begriff "ternary" aus dem arXiv-Paper mit trinär übersetzt. Besser ist ternär – dies wurde im ersten Absatz nun korrigiert.
(pst)