Komprimierte KI: Wie Quantisierung große Sprachmodelle verkleinert

Wir erklären die wichtigsten Quantisierungsmethoden, mit denen Sprachmodelle wie ChatGPT Energie und Kosten sparen und sogar lokal auf Smartphones laufen.

Artikel verschenken

5

(Bild: KI, Collage c't)

03.01.2025, 10:00 Uhr

Lesezeit: 16 Min.

c't Magazin

Von

René Peinl

Komprimierte KI: Wie Quantisierung große Sprachmodelle verkleinert
- Training mit hoher Genauigkeit
Nach dem Training
Quantisierung für mobile Geräte
Quantisierung für CPUs
Modellvergleich

Artikel in c't 2/2025 lesen

Während der Hype etwas abgeflaut ist und sich Ernüchterung breit macht, steigt das Interesse an selbst betriebener generativer KI. Frei verfügbare Modelle holen gegenüber kommerziellen KI-Angeboten immer mehr auf. Es spricht also einiges dafür, ein eigenes Large Language Model (LLM) zu Hause oder im Unternehmen zu hosten.

Dumm nur, dass die besten Modelle in der Regel auch die höchsten Anforderungen an die Hardware stellen und die meiste Energie verbrauchen. Ein Llama 3.1 mit 405 Milliarden Parametern wird wohl selbst für Freaks mit Power-Workstation im Arbeitszimmer oder Server im Hobbykeller jenseits der Möglichkeiten bleiben. Und auch ein Mittelständler wird sich zweimal überlegen, ob sich die Investition in zwölf H100-GPUs mit je 80 GByte RAM lohnt, denn schon eine davon kostet schlappe 30.000 Euro.

Sprachmodelle müssen hochpräzise trainiert werden. Im späteren Betrieb kann man die Genauigkeit per Quantisierung jedoch ohne großen Qualitätsverlust reduzieren.
Gängige Quantisierungsverfahren reduzieren den Speicherbedarf der Gewichte von 16 Bit auf 4 Bit. Neuere Verfahren kommen sogar mit 2 Bit oder weniger aus.
Quantisierte Modelle berechnen ihre Antworten schneller, was die Stromkosten senkt und sie auf lokalen Maschinen und langsameren Prozessoren laufen lässt.

Zum Glück gibt es kleinere Modelle wie das Mistral Large 2 mit 124 Milliarden Parametern oder das Nvidia Nemotron mit 70 Milliarden Parametern, die dem großen Llama kaum nachstehen. Mit einem kleinen Trick lässt sich Mistral Large 2 auf einer einzigen 80-GByte-Grafikkarte (A100 oder H100) und Nemotron auf einer 48-GByte-GPU (zum Beispiel einer A6000 für rund 6.000 Euro pro Stück) betreiben. Der Trick heißt Quantisierung. Damit ist es inzwischen sogar möglich, Modelle mit der Leistung eines ChatGPT 3.5 lokal auf Smartphones zu betreiben. Dieser Artikel gibt einen Überblick über verschiedene Quantisierungsmethoden und welche Frameworks und Hardwareplattformen sie besonders effizient einsetzen.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Elektroauto Xpeng G9 im Test: Lädt schneller als erlaubt

Das E-SUV G9 soll mit bis zu 525 kW laden können. Von 10 auf 80 Prozent lädt er in 12 Minuten. Doch für Xpeng bleibt noch einiges zu tun.

, Copyxspace, stock.adobe.com / heise medien

USB-C: Warum Sie eigentlich immer das falsche Kabel anschließen

Das richtige Kabel für USB-C-Verbindungen zu finden, ist ein Glücksspiel: Das eine lädt zu langsam, beim anderen kriechen die Daten im Schneckentempo. Was tun?

Erinnerungsfotos in Videos verwandeln: Wenn KI die Vergangenheit zurückbringt

Mit lokaler KI erwachen alte Fotos zu neuem Leben. Das kostenlose Modell LTX-2 verwandelt Bilder im Handumdrehen in realistische, vertonte Videos.

Suchmaschinenmarkt im Überblick: Viele Dienste, zwei echte Machtzentren

Auch KI-Systeme sind ohne Websuche blind. Doch der Suchmarkt ist extrem konzentriert – mit Folgen für Wettbewerb und Souveränität.

Smart Home: Alles, was Einsteiger über Home Assistant wissen müssen

Home Assistant ist ein mächtiges Werkzeug, um das smarte Zuhause zu steuern. Wir erklären in diesem umfangreichen Kompendium die Basisfunktionen.

Google Pixel 10a im Test

Das Google Pixel 10a wirkt auf den ersten Blick wie ein Abklatsch seines Vorgängers mit fast identischer Hardware. Wir haben aber einige Unterschiede gefunden.