KI-Betriebskosten sparen mit virtuellem Inferenzserver im Container von Red Hat

Der neue Inferenzserver von Red Hat läuft ressourcenoptimiert, plattformunabhängig und geclustert in Kubernetes-Containern.

vorlesen Druckansicht 3 Kommentare lesen
Container

(Bild: Da Da Diamond/Shutterstock.com)

Lesezeit: 1 Min.
close notice

This article is also available in English. It was translated with technical assistance and editorially reviewed before publication.

Auf seinem jährlichen Summit (20. bis 21. Mai in Boston) hat Red Hat einen Inferenzserver für trainierte KI-Modelle vorgestellt, der durch Virtualisierung plattformunabhängig und mit geringen Hardware-Anforderungen arbeitet.

Der Server basiert auf dem Projekt Virtual LLM (vLLM), das Inferenzmodelle nicht nur virtualisiert, sondern auch deren Speichermanagement geschickt strukturiert, um Hardwareressourcen effizient zu nutzen. Red Hat hat sich dabei für eine Containerisierung mit Kubernetes entschieden, sodass der Server auf allen Containerplattformen und Hyperscalern läuft, die Kubernetes unterstützen und die nötige Hardware bereitstellen: GPUs von Nvidia, AMD oder Google. Auch eine Edge-Nutzung ist möglich. Außerdem lassen sich laut Hersteller alle gängigen Modelle darin betreiben.

Anwender können den Server zusätzlich über mehrere Container clustern, wofür Red Hat llm-d einsetzt, ein Projekt, das die Firma gemeinsam mit Google, IBM, Nvidia und anderen betreibt.

Videos by heise

Durch diese Architektur und zusätzliche Kompressionsverfahren (Neural Magic) verspricht Red Hat, dass trainierte Modelle auch auf älterer und günstiger Hardware laufen und nicht die neuesten Nvidia-Karten benötigen. Der Server lässt sich unabhängig von RHEL oder Open Shift betreiben. Auf Hugging Face bietet Red Hat optimierte und abgesicherte Container an.

Auf dem EngineCore läuft die Inferenz und er ist für die Speicheroptimierung zuständig.

(Bild: Red Hat)

Inferencing bezeichnet den eigentlichen Betrieb eines fertig trainierten Modells und stellt die Schnittstelle zu den Anwenderinnen und Anwendern und deren Anfragen dar.

(who)