Wie man riesige Sprachmodelle auf praxistaugliche Maße schrumpft
Für den Betrieb von Modellen wie DeepSeek braucht man teure Grafikkarten. Komprimierte Versionen schaffen Abhilfe.

DeepSeek gilt als besonders effizientes Large Language Model (LLM), das nicht nur ressourcenschonend trainiert wurde, sondern dem Spitzenreiter von OpenAI in bestimmten Disziplinen ebenbürtig oder überlegen ist. Weil sogar die größte Modellversion als Open-Weights-Modell zum Download steht, kann es theoretisch jeder selbst auf seinen Servern betreiben. Das ist deshalb interessant, weil man damit den Zugriff via Web-Interface und Mobil-App umgeht, der recht strengen chinesischen Inhaltsfiltern unterliegt und vor allem für Firmen datenschutzrechtlich heikel ist.
Mittlerweile kursieren zahlreiche DeepSeek-Ableger, die deutlich weniger Ressourcen benötigen als das große Basismodell – und teils verwirrende Namen tragen. Sie entstanden mithilfe unterschiedlicher Komprimierungstechniken aus der recht unhandlichen und ressourcenintensiven Ursprungsversion. Bei näherem Hinsehen stellt man fest: Viele dieser vermeintlichen DeepSeek-Varianten sind eigentlich Llama- oder Qwen-Architekturen, denen quasi ein Teil des DeepSeek-Gehirns transplantiert wurde.
- Mit dem chinesischen Open-Weights-Modell DeepSeek rückt das selbstbetriebene Sprachmodell in greifbare Nähe. Doch mit 671 Milliarden Parametern ist es zu groß für den durchschnittlichen Firmenserver.
- Damit künstliche neuronale Netze auch auf schwächerer Hardware oder gar Mobilgeräten betrieben werden können, wurden unterschiedliche Kompressionstechniken entwickelt, die die Modelle schrumpfen beziehungsweise den Rechenaufwand reduzieren: Quantisierung, Pruning und Wissensdestillation.
- Sie dünnen die Netze aus, verkleinern sie oder rechnen an manchen Stellen weniger exakt, wodurch die Modelle weniger Speicher belegen und mitunter sogar auf schwächeren CPUs laufen.
Wir geben einen Überblick über die gängigen Verfahren und wie sie sich auswirken.
Das war die Leseprobe unseres heise-Plus-Artikels "Wie man riesige Sprachmodelle auf praxistaugliche Maße schrumpft". Mit einem heise-Plus-Abo können sie den ganzen Artikel lesen und anhören.