Ohne Mehrkosten: Hugging Face bietet serverlose Inferenzen von Drittanbietern an

KI-Entwickler können nun auf Hugging Face ausgewählte serverlose Inferenzanbieter direkt ansteuern. Zusätzliche Kosten sollen ihnen dadurch nicht entstehen.

2

(Bild: whiteMocca/Shutterstock.com)

29.01.2025, 15:12 Uhr

Lesezeit: 2 Min.

iX Magazin

Von

Sven Festag

Die KI-Entwicklungsplattform Hugging Face hat den Zugriff auf serverlose Inferenzanbieter in ihren Dienst integriert. Mit der Einbindung sollen Entwickler ihre KI-Modelle auf der Infrastruktur unterschiedlicher Dienstleister ohne Hardware-Verwaltung ausführen können. Zunächst bietet Hugging Face serverlose Inferenz von Sambanova, Replicate, Together AI und Fal an. Über die Entwicklungsplattform soll der Zugriff nicht teurer sein als direkt bei den jeweiligen Anbietern.

Serverlose Inferenz zum Selbstkostenpreis

Entwickler können über die Weboberfläche Token für die jeweiligen Anbieter generieren. Anfragen über die Schnittstelle laufen dann über die Infrastruktur von Hugging Face. Das Unternehmen berechnet für die API-Zugriffe den Preis, den es selbst an den entsprechenden Dienstleister zahlt. Zukünftig plane Hugging Face jedoch Abkommen mit den Inferenzanbietern zur Umsatzbeteiligung, so das Unternehmen. Im Gratistarif erhalten Kunden eine begrenzte Anzahl an Anfragen. Das Pro-Abonnement für monatlich neun US-Dollar umfasst zwei Dollar Guthaben, das sich für alle Anbieter einlösen lässt.

Alternativ können Entwickler, wie auch bisher, bestehende API-Schlüssel von Inferenzdienstleistern mit der KI-Plattform nutzen. In diesem Fall läuft die Abrechnung direkt über den jeweiligen Anbieter. Token und API-Keys lassen sich über die Client-SDKs in Python und JavaScript verwenden. Ebenfalls sind direkte HTTP-Anfragen möglich. Diese kommen etwa bei OpenAI-kompatiblen Schnittstellen zum Einsatz. Entsprechende Codebeispiele liefert Hugging Face auf seinem Blog.

Weiterhin lässt sich über Hugging Face auch dedizierte Hardware zur Ausführung von KI-Modellen mieten. Mit serverlosen Inferenzen können KI-Entwickler ihre Modelle ausführen und skalieren, ohne die Hardware selbst verwalten zu müssen. Die Rechenleistung passen die Anbieter an den jeweiligen Bedarf an. Neben dem Tagesgeschäft arbeitet Hugging Face derzeit an Open-R1, einer quelloffenen Kopie des R1-Modells von DeepSeek.