KI-Server hosten: Mit vLLM KI-Modelle produktiv betreiben

Lokale KI bietet Vorteile wie Kostenkontrolle und Datensicherheit. Für die Entwicklung eignet sich Ollama, doch für den Servereinsatz ist vLLM die bessere Wahl.

Artikel verschenken
vorlesen Druckansicht 2 Kommentare lesen
Lesezeit: 8 Min.
Von
  • Prof. Christian Leubner
Inhaltsverzeichnis

Ein KI-Modell mal eben selbst starten? Kein Problem dank öffentlich zugänglicher Modelle auf der KI-Plattform Hugging Face und vielfach großzügiger Lizenzbedingungen, die auch kommerzielle Nutzung gestatten. In der Regel sind die GPU-Leistung und der Grafikkartenspeicher die beschränkenden Faktoren, sodass vor allem kleinere Modelle mit geringem Bedarf an GPU-Speicher zum Einsatz kommen.

Zunehmend zeigt sich, dass Entwicklerinnen und Entwickler für viele Use Cases nicht den KI-Ferrari à la DeepSeek-R1 oder ChatGPT-4o in voller Modellgröße aus der Cloud-Garage bewegen müssen. Für viele Zwecke reichen oft die kleineren Modellvarianten, die sich mit vergleichsweise wenigen Gigabytes Grafikspeicher begnügen.

Mehr zum Thema Künstliche Intelligenz (KI)
iX-tract
  • vLLM (Virtual Large Language Model) eignet sich für Unternehmen oder kleine Arbeitsgruppen, die LLMs nicht aus der Cloud nutzen, sondern selbst auf dem Server betreiben möchten.
  • vLLM ermöglicht den günstigen Eigenbetrieb kleiner KI-Modelle, beispielsweise mit High-End-Grafikkarten.
  • Die Modellqualität variiert je nach Größe und Sprache. Spezialisierte deutsche Modelle ("Sauerkraut-Modelle") können helfen.
  • Komplexe Multi-User-Set-ups erfordern zusätzliche Tools wie API-Gateways.

Wenn es etwas mehr KI-Leistung bedarf, die mehrere Mitarbeitende im Unternehmen oder in kleinen Arbeitsgruppen nutzen sollen, bietet sich ein zentraler GPU-Server an, der ähnlich wie ein Cloud-Dienst über eine API angesprochen wird. So muss nicht jeder Entwicklungs-PC, der lokale KI nutzen soll, mit einer teuren Top-GPU ausgestattet werden. Auch für den Produktiveinsatz ist ein verteiltes Deployment für unterschiedliche Services mit einem zentralen GPU-Server sinnvoll, da man dann das KI-Modell nur einmal bereitstellen muss.

Das war die Leseprobe unseres heise-Plus-Artikels "KI-Server hosten: Mit vLLM KI-Modelle produktiv betreiben". Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.