KI-Server hosten: Mit vLLM KI-Modelle produktiv betreiben
Lokale KI bietet Vorteile wie Kostenkontrolle und Datensicherheit. Für die Entwicklung eignet sich Ollama, doch für den Servereinsatz ist vLLM die bessere Wahl.
- Prof. Christian Leubner
Ein KI-Modell mal eben selbst starten? Kein Problem dank öffentlich zugänglicher Modelle auf der KI-Plattform Hugging Face und vielfach großzügiger Lizenzbedingungen, die auch kommerzielle Nutzung gestatten. In der Regel sind die GPU-Leistung und der Grafikkartenspeicher die beschränkenden Faktoren, sodass vor allem kleinere Modelle mit geringem Bedarf an GPU-Speicher zum Einsatz kommen.
Zunehmend zeigt sich, dass Entwicklerinnen und Entwickler für viele Use Cases nicht den KI-Ferrari à la DeepSeek-R1 oder ChatGPT-4o in voller Modellgröße aus der Cloud-Garage bewegen müssen. Für viele Zwecke reichen oft die kleineren Modellvarianten, die sich mit vergleichsweise wenigen Gigabytes Grafikspeicher begnügen.
- vLLM (Virtual Large Language Model) eignet sich für Unternehmen oder kleine Arbeitsgruppen, die LLMs nicht aus der Cloud nutzen, sondern selbst auf dem Server betreiben möchten.
- vLLM ermöglicht den günstigen Eigenbetrieb kleiner KI-Modelle, beispielsweise mit High-End-Grafikkarten.
- Die Modellqualität variiert je nach Größe und Sprache. Spezialisierte deutsche Modelle ("Sauerkraut-Modelle") können helfen.
- Komplexe Multi-User-Set-ups erfordern zusätzliche Tools wie API-Gateways.
Wenn es etwas mehr KI-Leistung bedarf, die mehrere Mitarbeitende im Unternehmen oder in kleinen Arbeitsgruppen nutzen sollen, bietet sich ein zentraler GPU-Server an, der ähnlich wie ein Cloud-Dienst über eine API angesprochen wird. So muss nicht jeder Entwicklungs-PC, der lokale KI nutzen soll, mit einer teuren Top-GPU ausgestattet werden. Auch für den Produktiveinsatz ist ein verteiltes Deployment für unterschiedliche Services mit einem zentralen GPU-Server sinnvoll, da man dann das KI-Modell nur einmal bereitstellen muss.
Das war die Leseprobe unseres heise-Plus-Artikels "KI-Server hosten: Mit vLLM KI-Modelle produktiv betreiben". Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.