Übersicht über kleine KI-Modelle, die sich für den lokalen Betrieb eignen

Ob für das Feintunen, in einem RAG-System oder für den Offlinebetrieb: Small Language Models eignen sich auch für den lokalen Einsatz und sind einen Blick wert.

Artikel verschenken
In Pocket speichern vorlesen Druckansicht 1 Kommentar lesen
Lesezeit: 15 Min.
Von
  • Prof. Christian Winkler
Inhaltsverzeichnis

Große Sprachmodelle (LLMs) sind nützlich und für viele aus dem Alltag nicht mehr wegzudenken. Durch ihre hohe Anzahl an Parametern haben sie viel Wissen gespeichert und können dadurch hervorragende Texte formulieren sowie Antworten auf Fragen aus den verschiedensten Themengebieten geben. Viele Parameter brauchen jedoch viel Speicher, und der ist gerade auf Grafikkarten besonders teuer – dabei können GPUs Sprachmodelle aufgrund der Parallelisierung der Aufgaben besonders schnell ausführen. Ist man nur an den Formulierungskünsten oder an Spezialwissen interessiert, wären also etwas kleinere Sprachmodelle (Small Language Models, SLMs) nützlich.

Die Grenze zwischen kleinen und großen Sprachmodellen ist nicht sonderlich scharf. Häufig zählt Metas Llama-Modell mit acht Milliarden Parametern zu den SLMs, andere Quellen setzen die Grenze bei vier Milliarden Parametern, was auch als Basis für diesen Artikel dienen soll.

iX-tract
  • Für große Sprachmodelle mit weniger als 10 Milliarden Parametern etabliert sich die Bezeichnung Small Language Model (SLM).
  • Aufgrund der geringeren Größe von SLMs lassen sich diese Modelle offline mit Grafikkarten, Laptop-CPUs oder auf Smartphones betreiben.
  • Feintunen und RAG sind zwei beliebte Anwendungsfälle für SLMs, wo ihre Größe und die niedrigere Quantisierungsstufe eine höhere Performance erlaubt.
  • Doch gerade bei diesen kleineren Modellen ist die Qualität der Trainingsdaten besonders wichtig. Im Vergleich mit den größeren Varianten neigen SLMs stärker zum Erfinden von Falschinformationen.
Mehr zu generativer KI und Language Models

Große Sprachmodelle speichern ihre Parameter in dem speziellen Format bfloat16, das man sich extra für tiefe neuronale Netze ausgedacht hat. Im Vergleich zum gebräuchlicheren float32 liegt hier eine niedrigere Genauigkeit vor, der Wertebereich ist aber identisch. Da Milliarden Parameter ohnehin nur approximativ justiert werden können, fällt diese Ungenauigkeit praktisch nicht ins Gewicht. Da heutige Consumer-GPUs über mindestens 8 GByte RAM verfügen, können sie in der bfloat16-Darstellung etwas weniger als 4 Milliarden Parameter verarbeiten, denn Zwischenergebnisse benötigen auch noch Platz.

Das war die Leseprobe unseres heise-Plus-Artikels "Übersicht über kleine KI-Modelle, die sich für den lokalen Betrieb eignen". Mit einem heise-Plus-Abo können sie den ganzen Artikel lesen und anhören.