KI-Server hosten: Mit vLLM KI-Modelle produktiv betreiben

Lokale KI bietet Vorteile wie Kostenkontrolle und Datensicherheit. Für die Entwicklung eignet sich Ollama, doch für den Servereinsatz ist vLLM die bessere Wahl.

Artikel verschenken

2

23.07.2025, 07:30 Uhr

Lesezeit: 8 Min.

iX Magazin

Von

Prof. Christian Leubner

KI-Server hosten: Mit vLLM KI-Modelle produktiv betreiben
- vLLM statt Ollama
Auf den Kontext kommt es an
Sauerkraut-Modelle
vLLM im Netz: einfach, aber mit Einschränkungen

Artikel in iX 8/2025 lesen

Ein KI-Modell mal eben selbst starten? Kein Problem dank öffentlich zugänglicher Modelle auf der KI-Plattform Hugging Face und vielfach großzügiger Lizenzbedingungen, die auch kommerzielle Nutzung gestatten. In der Regel sind die GPU-Leistung und der Grafikkartenspeicher die beschränkenden Faktoren, sodass vor allem kleinere Modelle mit geringem Bedarf an GPU-Speicher zum Einsatz kommen.

Zunehmend zeigt sich, dass Entwicklerinnen und Entwickler für viele Use Cases nicht den KI-Ferrari à la DeepSeek-R1 oder ChatGPT-4o in voller Modellgröße aus der Cloud-Garage bewegen müssen. Für viele Zwecke reichen oft die kleineren Modellvarianten, die sich mit vergleichsweise wenigen Gigabytes Grafikspeicher begnügen.

vLLM (Virtual Large Language Model) eignet sich für Unternehmen oder kleine Arbeitsgruppen, die LLMs nicht aus der Cloud nutzen, sondern selbst auf dem Server betreiben möchten.
vLLM ermöglicht den günstigen Eigenbetrieb kleiner KI-Modelle, beispielsweise mit High-End-Grafikkarten.
Die Modellqualität variiert je nach Größe und Sprache. Spezialisierte deutsche Modelle ("Sauerkraut-Modelle") können helfen.
Komplexe Multi-User-Set-ups erfordern zusätzliche Tools wie API-Gateways.

Wenn es etwas mehr KI-Leistung bedarf, die mehrere Mitarbeitende im Unternehmen oder in kleinen Arbeitsgruppen nutzen sollen, bietet sich ein zentraler GPU-Server an, der ähnlich wie ein Cloud-Dienst über eine API angesprochen wird. So muss nicht jeder Entwicklungs-PC, der lokale KI nutzen soll, mit einer teuren Top-GPU ausgestattet werden. Auch für den Produktiveinsatz ist ein verteiltes Deployment für unterschiedliche Services mit einem zentralen GPU-Server sinnvoll, da man dann das KI-Modell nur einmal bereitstellen muss.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Xiaomi Poco F8 Pro im Test: Smartphone mit Snapdragon 8 Elite

Ein starker Prozessor und ein helles Display in einem schicken Gehäuse, dazu drei Kameras – man könnte meinen, das Poco F8 Pro müsste richtig teuer sein.

Zwei Multifunktionsdrucker mit optionalem Tintenabo im Test

Wir haben den HP Envy Photo 7930 und Canon Pixma TS7550i getestet, die Bürodrucksachen, aber auch randlose Fotos drucken und kopieren. Die Patronen sind teuer.

Die Sicherheitsrisiken von KI-Assistenten wie OpenClaw

Das Projekt OpenClaw zeigt beeindruckend, was KI kann, wenn man sie lässt – und es zeigt, welch vielfältige Risiken damit einhergehen.

Sieben MicroSD-Karten mit Geschwindigkeiten von knapp 1 GByte/s im Test

SD-Karten können eigentlich nie zu schnell sein. Für die Switch 2 sind MicroSD-Karten nach dem schnellen Express-Standard sogar Pflicht.

Collabora Office: LibreOffice light im Test

Die neue Offline-Variante des auf LibreOffice basierenden Pakets Collabora Online für Windows, Linux und macOS benötigt weder Cloudspeicher noch Server.