Small Language Models: Große Sprachmodelle werden klein

Ob für das Feintunen, in einem RAG-System oder für den Offlinebetrieb: Small Language Models eignen sich auch für den lokalen Einsatz. Warum die LLM-Ableger mit geringerer Parameterzahl einen Blick wert sind und wo ihre Schwächen liegen.

Von Prof. Dr. Christian Winkler

Große Sprachmodelle (LLMs) sind nützlich und für viele aus dem Alltag nicht mehr wegzudenken. Durch ihre hohe Anzahl an Parametern haben sie viel Wissen gespeichert und können dadurch hervorragend Texte formulieren sowie Antworten auf Fragen aus den verschiedensten Themengebieten geben. Viele Parameter brauchen jedoch viel Speicher, und der ist gerade auf Grafikkarten besonders teuer – dabei können GPUs Sprachmodelle aufgrund der Parallelisierung der Aufgaben besonders schnell ausführen. Ist man nur an den Formulierungskünsten oder an Spezialwissen interessiert, wären also etwas kleinere Sprachmodelle (Small Language Models, SLMs) nützlich.

Der Unterschied zwischen SLM und LLM

Die Grenze zwischen kleinen und großen Sprachmodellen ist nicht sonderlich scharf. Häufig zählt Metas Llama-Modell mit acht Milliarden Parametern zu den SLMs, andere Quellen setzen die Grenze bei vier Milliarden Parametern, was auch als Basis für diesen Artikel dienen soll. Große Sprachmodelle speichern ihre Parameter in dem speziellen Format bfloat16, das man sich extra für tiefe neuronale Netze ausgedacht hat. Im Vergleich zum gebräuchlicheren float32 liegt hier eine niedrigere Genauigkeit vor, der Wertebereich ist aber identisch. Da Milliarden Parameter ohnehin nur approximativ justiert werden können, fällt diese Ungenauigkeit praktisch nicht ins Gewicht. Da heutige Consumer-GPUs über mindestens 8 GByte RAM verfügen, können sie in der bfloat16-Darstellung etwas weniger als 4 Milliarden Parameter verarbeiten, denn Zwischenergebnisse benötigen auch noch Platz.

Small Language Models: Große Sprachmodelle werden klein

Der Unterschied zwischen SLM und LLM

Angebot auswählen und weiterlesen

Alle heise-Magazine mit heise+ lesen

Das digitale Abo für IT und Technik.

Alle Ausgaben freischalten

Ausgabe einmalig freischalten