Wie man riesige Sprachmodelle auf praxistaugliche Maße schrumpft

Für den Betrieb von Modellen wie DeepSeek braucht man teure Grafikkarten. Komprimierte Versionen schaffen Abhilfe.

Artikel verschenken

2

07.03.2025, 15:00 Uhr

Lesezeit: 13 Min.

c't Magazin

Von

Andrea Trinkwalder

Wie man riesige Sprachmodelle auf praxistaugliche Maße schrumpft
- Bedingt betriebsbereit
- Quantisierung: Genauigkeit verringern
Trickreiches Training
1,58-Bit-quantisiertes DeepSeek
Netze ausdünnen, Wissen transplantieren
Wem es nützt

DeepSeek gilt als besonders effizientes Large Language Model (LLM), das nicht nur ressourcenschonend trainiert wurde, sondern dem Spitzenreiter von OpenAI in bestimmten Disziplinen ebenbürtig oder überlegen ist. Weil sogar die größte Modellversion als Open-Weights-Modell zum Download steht, kann es theoretisch jeder selbst auf seinen Servern betreiben. Das ist deshalb interessant, weil man damit den Zugriff via Web-Interface und Mobil-App umgeht, der recht strengen chinesischen Inhaltsfiltern unterliegt und vor allem für Firmen datenschutzrechtlich heikel ist.

Mittlerweile kursieren zahlreiche DeepSeek-Ableger, die deutlich weniger Ressourcen benötigen als das große Basismodell – und teils verwirrende Namen tragen. Sie entstanden mithilfe unterschiedlicher Komprimierungstechniken aus der recht unhandlichen und ressourcenintensiven Ursprungsversion. Bei näherem Hinsehen stellt man fest: Viele dieser vermeintlichen DeepSeek-Varianten sind eigentlich Llama- oder Qwen-Architekturen, denen quasi ein Teil des DeepSeek-Gehirns transplantiert wurde.

Mit dem chinesischen Open-Weights-Modell DeepSeek rückt das selbstbetriebene Sprachmodell in greifbare Nähe. Doch mit 671 Milliarden Parametern ist es zu groß für den durchschnittlichen Firmenserver.
Damit künstliche neuronale Netze auch auf schwächerer Hardware oder gar Mobilgeräten betrieben werden können, wurden unterschiedliche Kompressionstechniken entwickelt, die die Modelle schrumpfen beziehungsweise den Rechenaufwand reduzieren: Quantisierung, Pruning und Wissensdestillation.
Sie dünnen die Netze aus, verkleinern sie oder rechnen an manchen Stellen weniger exakt, wodurch die Modelle weniger Speicher belegen und mitunter sogar auf schwächeren CPUs laufen.

Wir geben einen Überblick über die gängigen Verfahren und wie sie sich auswirken.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Gute Einstellung: Versteckte Apple-Watch-Funktionen finden und einsetzen

Viele User kennen nicht alle Watch-Funktionen. Wir betrachten das Einstellungsmenü von watchOS 11 und zeigen Optionen, die wenig bekannt, aber nützlich sind.

Pandas und Matplotlib: In Excel komplexe Berechnungen mit Python durchführen

Mit Python lassen sich in Excel große Datenmengen einfach analysieren. Zusammen mit der Copilot-KI können auch Einsteiger den passenden Code erzeugen.

Elektroauto Polestar 2 im Dauertest: Der erzwungene Abschied schmerzt

Nach Jahren ohne eigenes Auto least sich unser Autor einen Polestar 2. Es ist das erste Leasing-Fahrzeug der Familie. Hat sie die Entscheidung bereut?