Der Einsatz lokaler KI-Modelle am Edge ist deutlich schneller als eine Cloud-Lösung, erhöht aber auch die Komplexität und die Angriffsfläche. Unternehmen müssen daher die richtigen Infrastrukturentscheidungen treffen, um eine KI am Edge sicher, leistungsstark und kosteneffizient bereitstellen zu können.
Wer ChatGPT, DALL-E oder eine andere generative KI aus der Cloud nutzt, kennt das Phänomen: Manchmal dauert es mehrere Sekunden, bis das System reagiert – in Spitzenzeiten kann es sogar vorkommen, dass die KI für Minuten oder Stunden gar nicht erreichbar ist.
Lange Antwortzeiten mögen in der Kommunikation mit einem Chatbot tolerierbar sein, in vielen anderen Anwendungsbereichen von KI sind sie jedoch nicht akzeptabel. Zum Beispiel in der Fertigung, wo sich die Ausschussrate nur dann signifikant senken lässt, wenn Produktionsfehler in Echtzeit erkannt werden. Oder in medizinischen Anwendungen, etwa dem Monitoring von Vitaldaten, wo lange Analyse- und Reaktionszeiten sogar lebensbedrohlich sein können. Gleiches gilt für das autonome Fahren, bei dem Entscheidungen oft in Sekundenbruchteilen getroffen werden müssen.
Für diese und viele andere Nutzungsszenarien kommt der Einsatz bereits trainierter Machine-Learning-Modelle, die sogenannte Inferenz, in einer Cloud-Umgebung meist nicht infrage. „Die Übertragung der Informationen vom Nutzer zu einem Rechenzentrum, das Tausende von Kilometern entfernt sein kann, geschieht einfach nicht schnell genug“, erklärt Michele Taroni, Head of AI bei Gcore, einem Anbieter von Cloud-, Edge- und KI-Lösungen.
Auch Datenschutz- und Sicherheitsaspekte können gegen eine KI-Nutzung in der Cloud sprechen. Im Gesundheitswesen, bei Finanzdienstleistern und in anderen regulierten Branchen ist die Übertragung sensibler Daten in Fremdsysteme oft verboten oder zumindest nur eingeschränkt erlaubt. Laut einer Umfrage des Wirtschaftsministeriums stellen Datenschutzfragen für 37 Prozent der kleinen und mittelständischen Unternehmen eine große Herausforderung beim Einsatz von KI dar.
Eine KI-Anwendung in der Cloud ist auch dann problematisch, wenn sehr große Datenmengen anfallen. Der Transfer benötigt in solchen Fällen sehr große Bandbreiten und kann je nach Tarifmodell teuer werden.
Mit der Verlagerung von Inferenzaufgaben an den Netzwerkrand (Edge) lassen sich diese Probleme lösen. Dabei werden die Maschine-Learning-Modelle auf Servern ausgeführt, die sich in der gleichen Region oder Stadt wie der Endnutzer befinden. Durch die räumliche Nähe sinkt die Latenz auf wenige Millisekunden. Die Datenspeicherung vor Ort erleichtert es außerdem, Gesetze und Vorschriften wie die Datenschutzgrundverordnung (DSGVO) einzuhalten. „Durch die Verarbeitung der Daten am Edge ist gewährleistet, dass die Daten lokal und sicher bleiben“, sagt Taroni.
Auswahlkriterien fĂĽr eine Edge-Inference-Infrastrukur
Die meisten Anwender dürften mit dem Aufbau einer eigenen Edge-Inference-Infrastruktur überfordert sein. Vor allem bei Unternehmen mit vielen und womöglich weltweit verteilten Standorten wären die Investitionen enorm – vom Verwaltungsaufwand und den Herausforderungen beim Schutz einer solchen verteilten KI-Umgebung ganz zu schweigen. Es empfiehlt sich daher, mit einem Anbieter zusammenzuarbeiten, der Inference at the Edge als Service bereitstellen kann. „Unternehmen sollten ihre technischen Anforderungen in Bezug auf die Leistung des Modells, die Standorte der Nutzer und die Anforderungen an Datenschutz und Compliance berücksichtigen. Sie sollten auch die Entwicklungszeit bedenken, die für die Integration in ihre Arbeitsabläufe erforderlich ist, und natürlich die Kosten für den Betrieb der Lösung und wie das mit der Nutzung skaliert“, rät Gcore-Manager Taroni.
Bei der Wahl eines Inference-at-the-Edge-Providers sind folgende Kriterien entscheidend:
Anzahl und Verteilung der Edge-Rechenzentren: Die Antwortzeiten beim Einsatz von KI-Modellen hängen stark von der Distanz zwischen Rechenzentrum und Nutzer ab. Pro hundert Kilometer steigt die Latenz um zirka eine Millisekunde. Ein Anbieter sollte daher über Dutzende oder sogar Hunderte von Points of Presence (PoPs) weltweit verfügen, um an jedem Standort des Kunden KI-Inferenz in Echtzeit bereitstellen zu können. Idealerweise sorgt ein intelligentes Routing dafür, dass Anfragen immer an den nächstgelegenen Edge-Server geleitet werden.
Ausstattung der Server: Die Rechenzeit der Inferenzanfragen lässt sich durch den Einsatz von Grafikprozessoren (Graphic Processing Unit, GPU) deutlich verkürzen. Mittlerweile gibt es eine ganze Reihe von GPUs, die speziell für KI-Inferenz entwickelt wurden. Eines der neuesten Modelle, die Grafikkarte Nvidia L40s, bietet beispielsweise eine bis zu fünfmal schnellere Inferenzleistung als die GPUs A100 und H100, die in erster Linie für das Training großer Machine-Learning-Modelle konzipiert wurden. Der Nvidia-L40S-Grafikprozessor ist derzeit eine der besten KI-Beschleuniger für Server, die KI-Inferenz ausführen.
Bereitstellung der KI-Modelle: Bei Inference at the Edge sind die KI-Modelle über viele Standorte verteilt. „Das erhöht die Komplexität der Bereitstellung, Aktualisierung und Skalierung von Modellen erheblich“, warnt Taroni. Diese Komplexität lässt sich mit einer Container-Orchestrierungslösung wie Kubernetes in den Griff bekommen, die idealerweise vom Edge-Provider verwaltet wird. Die Anwender müssen dann nur noch ein Container-Image mit dem Machine-Learning-Modell hochladen, das vom Provider automatisch an die Endpunkte verteilt wird. Je nach Last werden dabei mehr oder weniger Ressourcen verwendet.
Preisstruktur: Verteilte KI-Modelle und große Datenmengen können zu erheblichen und unerwarteten Kosten führen. Eine flexible, transparente und faire Preisstruktur stellt sicher, dass Unternehmen nur für die Ressourcen zahlen, die sie auch tatsächlich nutzen.
Fazit: Inference at the Edge ist unverzichtbar fĂĽr Echtzeitanwendungen
Für Unternehmen, die Echtzeitanwendungen bereitstellen wollen, ist der Einsatz von KI-Inferenz am Edge die beste Lösung. Er reduziert die Latenz erheblich und sorgt so für schnelle Reaktionszeiten. Auch Fragen der Datensicherheit und Compliance lassen sich auf Edge-Servern leichter lösen als in einer zentralisierten Cloud-Umgebung.
Allerdings sollten Anwender die Komplexität, eine Lösung am Edge zu implementieren und zu verwalten, nicht unterschätzen. Sie lassen sich nur mit dem richtigen Partner in den Griff bekommen. Der auf Cloud-, Edge- und KI-Lösungen spezialisierte Provider Gcore bietet beispielsweise mit Inference at the Edge eine Lösung, die Kunden den Aufwand für die Bereitstellung und das Management ihrer KI-Modelle größtenteils abnimmt und dank nutzungsbasierter Abrechnung das Risiko einer Kostenexplosion minimiert. Anwender können sich so ganz auf die den sicheren Einsatz und die Skalierung ihrer Machine-Learning-Modelle konzentrieren.
kommentar field