KI im IT-Systemhaus: Wie hoch ist der Mehrwert?

Die Anbieter von großen Sprachmodellen versprechen viel. Was ein Chatbot wirklich bringt, haben Studenten in Zusammenarbeit mit Security-Experten erprobt.

In Pocket speichern vorlesen Druckansicht 6 Kommentare lesen
Guy,Student,Using,Laptop,,Artificial,Intelligence,For,Education.

(Bild: VH-studio/ Shutterstock.com)

Lesezeit: 7 Min.
Von
  • Michel Kellner
Inhaltsverzeichnis

Der Einsatz von KI-Chatbots hält in vielen Unternehmen Einzug, doch zugleich sind auch Hemmnisse für den Einsatz von ChatGPT und Co. zu beobachten. Da IT-Dienstleister mit sensiblen Informationen hantieren, müssen die KI-Systeme immer strengen Datenschutzanforderungen genügen, insbesondere im Umgang mit Kundendaten. Auslagerungspartner der Finanzbranche bewegen sich in regulierten Märkten, hier könnte der Einsatz von Services wie ChatGPT sogar die Bankenaufsicht interessieren. Bei Dienstleistungen im Healthcare-Umfeld arbeiten IT-Spezialisten mit sensiblen Sozialdaten. Eigentlich erfordert nahezu jede Handlung den verantwortungsvollen und nachvollziehbaren Umgang mit vertraulichen Daten, schließlich sollen Security Spezialisten keine neuen Angriffsflächen öffnen.

Die uneingeschränkte Nutzung von ChatGPT und vergleichbaren Services bei unzureichender Vertragslage und wenig transparenten Schutzmaßnahmen verbietet sich also per se für IT-Systemhäuser, Managed-Service-Provider und auch Beratungshäuser – da die Verarbeitung, Speicherung und auch die weitere Nutzung der Eingaben in diese Tools verborgen bleibt. Allerdings könnten die Mehrwerte eines KI-Chatbots viele Arbeitsschritte in IT-Systemhäusern vereinfachen: Die Systeme können Konfigurationen und Code entwickeln, Konzepte erstellen und bei der Recherche und Analyse zu Problemstellungen der Kunden helfen.

Um die echten Mehrwerte der Chatbots zu überprüfen, haben Studierende der Hochschule Weserbergland (HSW) im Rahmen der Forschungskooperation für das auf Sicherheit spezialisierte Systemhaus AirITSystems aus Langenhagen die Entwicklung eines maßgeschneiderten Chatbots untersucht.

Das Forschungsprojekt mit der HSW zielte darauf ab, die Interaktion zwischen Benutzern und dem KI-System durch den Einsatz eines fortgeschrittenen großen Sprachmodells (Large Language Model, LLM) mit beherrschbarer on-Premises-Technik selbst umzusetzen. Neben einem Chatbot-Prototyp ging es speziell um die Frage, mit welcher Qualität ein KI-Chatbot-Interface den IT-Spezialisten im Arbeitsalltag wirklich helfen kann. Ein intuitiv bedienbares Frontend sollte gleichermaßen für Security-Consultants, Systemspezialisten und Analysten des Security Operating Centers zugänglich sein.

Dafür galt es zu evaluieren, welches Modell sich speziell für IT-Sicherheits- und IT-relevante Fragen eignet. Weiterhin wollten die Studierenden untersuchen, inwiefern sich das LLM für spezifische Themenbereiche erweitern lässt und ob die Integration von firmeneigenen Datensätzen möglich ist. Aufgrund der Sicherheitsanforderungen kam nur eine gekapselte Instanz infrage, die in der eigenen Systemarchitektur betreibbar ist.

Die ersten Testdurchläufe überprüften mehrere Modelle auf die sprachliche Qualität ihrer Antworten. Hierbei stachen besonders die beiden Modelle Mistral-7B-v0.1 und Llama-2-7B-Chat-GPTQ hervor. Schlussendlich konnte das Mistral-Modell überzeugen, da es die Llama-2-Modelle in eigenen Testläufen in den Bereichen Argumentation, Mathematik und Code-Generierung erkennbar übertraf. Die Tests liefen in einer Anaconda-Umgebung mit Benchmark-Fragen aus dem Systemhausalltag, hier testete das System Ausgabezeit und Antwortlänge. Eine qualitative Bewertung der Ausgabe nahmen die Studierenden vor.

Eine der Anforderungen an das LLM bestand in einem ausgewogenen Verhältnis der jeweiligen Token-Größen von Ein- und Ausgabe. Um eine effiziente Verarbeitung der Fragen sicherzustellen, durften Ein- und Ausgabe nicht zu lang sein. Besonders bei den Antworten des Chatbots zeigte sich, dass zu kurze Antworten eher Fehlinformationen durch Verknappung enthielten. Die Antworten sollten aber auch nicht zu lang sein, da bei längeren Tokensequenzen mehr Bedarf an Rechenleistung und die Gefahr besteht, dass komplexere sprachliche Zusammenhänge zu weniger akkuraten Ergebnissen führen. Das Überschreiten des Token-Limits birgt wiederum die Gefahr unvollständiger oder unzusammenhängender Antworten, da dem LLM wichtige Zusammenhänge möglicherweise entgehen. Auch hier überzeugte das Mistral-Model mehr als seine Konkurrenten.

Die Gruppe der angehenden Wirtschaftsinformatiker entwickelte verschiedene Frontends für den Chatbot, dabei kamen die JavaScript-Bibliotheken Vue.js und React zum Einsatz. Die gute User-Experience des entwickelten Mensch-Maschine-Interfaces unterstützte sehr die Akzeptanz des Systems in der späteren Testphase.

(Bild: Beim Userinterface war der Dark Mode ein viel gefordertes Feature. Aus Entwicklersicht stand die intuitive Nutzbarkeit im Vordergrund.)

Im Backend leistete die erste virtuelle Maschine mit 16 Gigabyte Arbeitsspeicher einen ausreichenden Dienst. Schnell stellte sich im Test heraus, dass die CPU dem Rechenaufwand nicht gewachsen war und man auf eine GPU setzen muss. Zum Einsatz kamen final gleich mehrere Nvidia M400 Grafikkarten. Der Server arbeitete auf Debian 11 Linux in einer Azure Umgebung, das Backend bestand aus einem Python-Programmaufruf, der kontinuierlich als Web-API lokal auf GET-Anfragen des Frontends lauschte, um diese an das Modell weiterzuleiten. Die Frontend-Anfragen landeten in einer asynchronen Aufgabenwarteschlange gestellt, die das LLM nacheinander abarbeitete.

Nach der notwendigen Systemhärtung, der Verschlüsselung für Data in Transit (SSL) und dem Einsatz von starken Authentifizierungsverfahren war der geforderte Prototyp zum Erproben im Arbeitsalltag bereit.

Das Feedback für Benutzerfreundlichkeit im Arbeitsalltag der IT-Security-Spezialisten war weitestgehend positiv. Jeder der Interviewteilnehmer hat eine einfache, intuitive Benutzbarkeit des Frontends zurückgemeldet. Beim echten Nutzen waren die Rückläufer allerdings weniger eindeutig. Mehrwert sehen die Experten vor allem für Übungsaufgaben, die Recherche nach technischen Definitionen oder auch für das Formulieren von Texten in Konzeptarbeiten. Hier schätzen handelnde Spezialisten eine mögliche Zeitersparnis von bis zu 40 Prozent, was den Einsatz von Chatbots für diese Aufgaben attraktiv erscheinen lässt.

Als größter Verbesserungsbedarf des Prototyps stellten sich prägnantere und kürzere Antworten heraus. Deutlich zu beobachten war das Abschweifen der Antworten vom Thema und auch die geforderte Datenbankanbindung für eigene, den Modelloutput überschreibende Antworten zu bestimmten Themen stellte eine Herausforderung dar. Für die eigene Datenbankanbindung mussten die Studierenden das Modell komplett neu trainieren, was im Test allein 18 Stunden dauerte – und bei jeder Änderung des Datenbestands wiederholt werden muss. Da benutzerdefinierte Antworten generell volatile Daten sind, würde der zeitaufwändige Prozess des Feintunens auf eigene Inhalte derzeit noch zum Showstopper werden. Retrieval Augmented Generation als Alternative wurde nicht getestet.

Der Prototyp wurde erfolgreich eingeführt, die Akzeptanz der Anwender zeigte sich sofort – hier zahlten sich die Anstrengungen bei der Entwicklung eines guten Frontends aus. Aussagen zum echten Mehrwert oder gar zählbaren Einsparungen sind nicht einfach zu treffen; je nach Aufgabenstellung waren die zum Teil wenig prägnanten Ausgaben des Chatbots unterschiedlich hilfreich. Bei der Prägnanz der Antworten wurde nach dem ersten Feedback noch einmal nachgebessert.

Nutzbar war das System nahezu sofort und bot den Anwendern damit eine Alternative für die nicht gestattete Nutzung der öffentlichen KI-Produkte fremder Anbieter. Ein simples Verbot des Einsatzes von ChatGPT wird nicht weit tragen – hier flankieren eigene Anwendungen, die sich mit überschaubarem Aufwand implementieren lassen, die KI-Strategie im Systemhaus.

Neben dem Autor waren die folgenden angehenden Wirtschaftsinformatiker der Hochschule Weserbergland am Projekt beteiligt: Lars Wendt, Max Wilhelm Berberich, Jonas Gieschen, Sebastian Evers, Maik Scheidemantel, Damian Bender, Adrian Michal Romanik, Henri Manderla.

(pst)