Übersicht über kleine KI-Modelle, die sich für den lokalen Betrieb eignen

Ob für das Feintunen, in einem RAG-System oder für den Offlinebetrieb: Small Language Models eignen sich auch für den lokalen Einsatz und sind einen Blick wert.

Artikel verschenken

1

21.03.2025, 07:30 Uhr

Lesezeit: 15 Min.

iX Magazin

Von

Prof. Christian Winkler

Übersicht über kleine KI-Modelle, die sich für den lokalen Betrieb eignen
SLM-Familien
SLM-Anwendungen
Full Finetune eines SLM
Ausblick

Artikel in iX 4/2025 lesen

Große Sprachmodelle (LLMs) sind nützlich und für viele aus dem Alltag nicht mehr wegzudenken. Durch ihre hohe Anzahl an Parametern haben sie viel Wissen gespeichert und können dadurch hervorragende Texte formulieren sowie Antworten auf Fragen aus den verschiedensten Themengebieten geben. Viele Parameter brauchen jedoch viel Speicher, und der ist gerade auf Grafikkarten besonders teuer – dabei können GPUs Sprachmodelle aufgrund der Parallelisierung der Aufgaben besonders schnell ausführen. Ist man nur an den Formulierungskünsten oder an Spezialwissen interessiert, wären also etwas kleinere Sprachmodelle (Small Language Models, SLMs) nützlich.

Die Grenze zwischen kleinen und großen Sprachmodellen ist nicht sonderlich scharf. Häufig zählt Metas Llama-Modell mit acht Milliarden Parametern zu den SLMs, andere Quellen setzen die Grenze bei vier Milliarden Parametern, was auch als Basis für diesen Artikel dienen soll.

Für große Sprachmodelle mit weniger als 10 Milliarden Parametern etabliert sich die Bezeichnung Small Language Model (SLM).
Aufgrund der geringeren Größe von SLMs lassen sich diese Modelle offline mit Grafikkarten, Laptop-CPUs oder auf Smartphones betreiben.
Feintunen und RAG sind zwei beliebte Anwendungsfälle für SLMs, wo ihre Größe und die niedrigere Quantisierungsstufe eine höhere Performance erlaubt.
Doch gerade bei diesen kleineren Modellen ist die Qualität der Trainingsdaten besonders wichtig. Im Vergleich mit den größeren Varianten neigen SLMs stärker zum Erfinden von Falschinformationen.

Große Sprachmodelle speichern ihre Parameter in dem speziellen Format bfloat16, das man sich extra für tiefe neuronale Netze ausgedacht hat. Im Vergleich zum gebräuchlicheren float32 liegt hier eine niedrigere Genauigkeit vor, der Wertebereich ist aber identisch. Da Milliarden Parameter ohnehin nur approximativ justiert werden können, fällt diese Ungenauigkeit praktisch nicht ins Gewicht. Da heutige Consumer-GPUs über mindestens 8 GByte RAM verfügen, können sie in der bfloat16-Darstellung etwas weniger als 4 Milliarden Parameter verarbeiten, denn Zwischenergebnisse benötigen auch noch Platz.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Das neue MacBook Air M4 im Test: Lohnt sich Apples neues Einsteiger-Notebook?

Das populärste MacBook gibt es jetzt mit schnellerem M4-Chip. Das ist aber längst nicht die einzige Verbesserung, wie unser Test zeigt.

Was Smart Meter leisten, was sie kosten und wie man sie bekommt

Verbraucher haben erstmals ein Anrecht auf einen Smart Meter – also einen vernetzten Stromzähler. Wir erklären, wie man an ihn herankommt und was er bringt.

Einkauf nach Algorithmus: Wie Supermärkte Daten auswerten

In Supermärkten erzeugen digitale Systeme immer präzisere Daten. Und die enttarnen die Vorlieben des Kunden. Ein Feature.

Scharfer Schirm: Asus ProArt PA27JCV gegen Apples Studio Display im Test

Der 27-Zoll-Monitor ProArt PA27JCV von Asus konkurriert mit Apples Studio Display.

Eine Frau, die im Supermarkt Produkte selbst per Scanner erfasst

Was mobile Selbstscan-Systeme im Laden leisten: Edeka, Ikea, Kaufland und Rewe

In immer mehr Geschäften können Kunden ihre Waren im Laden selbst scannen und Zeit an der Kasse sparen. Der Preis dafür: Ihre Daten und mitunter Geduld.

Eigene Streamingplattform: Automatisierte Piraterie auf Heimservern

Film- und Serienpiraten haben die Trends der Softwareentwicklung verinnerlicht und zimmern auf ihren Heimservern ein privates Netflix unter schwarzer Flagge.