Komprimierte KI: Wie Quantisierung große Sprachmodelle verkleinert

Wir erklären die wichtigsten Quantisierungsmethoden, mit denen Sprachmodelle wie ChatGPT Energie und Kosten sparen und sogar lokal auf Smartphones laufen.

Artikel verschenken
vorlesen Druckansicht 5 Kommentare lesen
, KI, Collage c't

(Bild: KI, Collage c't)

Lesezeit: 16 Min.
Von
  • René Peinl
Inhaltsverzeichnis

Während der Hype etwas abgeflaut ist und sich Ernüchterung breit macht, steigt das Interesse an selbst betriebener generativer KI. Frei verfügbare Modelle holen gegenüber kommerziellen KI-Angeboten immer mehr auf. Es spricht also einiges dafür, ein eigenes Large Language Model (LLM) zu Hause oder im Unternehmen zu hosten.

Dumm nur, dass die besten Modelle in der Regel auch die höchsten Anforderungen an die Hardware stellen und die meiste Energie verbrauchen. Ein Llama 3.1 mit 405 Milliarden Parametern wird wohl selbst für Freaks mit Power-Workstation im Arbeitszimmer oder Server im Hobbykeller jenseits der Möglichkeiten bleiben. Und auch ein Mittelständler wird sich zweimal überlegen, ob sich die Investition in zwölf H100-GPUs mit je 80 GByte RAM lohnt, denn schon eine davon kostet schlappe 30.000 Euro.

c't kompakt
  • Sprachmodelle müssen hochpräzise trainiert werden. Im späteren Betrieb kann man die Genauigkeit per Quantisierung jedoch ohne großen Qualitätsverlust reduzieren.
  • Gängige Quantisierungsverfahren reduzieren den Speicherbedarf der Gewichte von 16 Bit auf 4 Bit. Neuere Verfahren kommen sogar mit 2 Bit oder weniger aus.
  • Quantisierte Modelle berechnen ihre Antworten schneller, was die Stromkosten senkt und sie auf lokalen Maschinen und langsameren Prozessoren laufen lässt.
Mehr zum Thema KI-Sprachmodelle:

Zum Glück gibt es kleinere Modelle wie das Mistral Large 2 mit 124 Milliarden Parametern oder das Nvidia Nemotron mit 70 Milliarden Parametern, die dem großen Llama kaum nachstehen. Mit einem kleinen Trick lässt sich Mistral Large 2 auf einer einzigen 80-GByte-Grafikkarte (A100 oder H100) und Nemotron auf einer 48-GByte-GPU (zum Beispiel einer A6000 für rund 6.000 Euro pro Stück) betreiben. Der Trick heißt Quantisierung. Damit ist es inzwischen sogar möglich, Modelle mit der Leistung eines ChatGPT 3.5 lokal auf Smartphones zu betreiben. Dieser Artikel gibt einen Überblick über verschiedene Quantisierungsmethoden und welche Frameworks und Hardwareplattformen sie besonders effizient einsetzen.

Das war die Leseprobe unseres heise-Plus-Artikels "Komprimierte KI: Wie Quantisierung große Sprachmodelle verkleinert". Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.