Drei Fragen und Antworten: Wie man KI im Unternehmen einführt und Erfolg misst

Viele Unternehmen erproben den Einsatz großer Sprachmodelle und wollen sie in Produktion bringen. Worauf es dabei ankommt, erklärt Sofiane Fessi im Interview.

vorlesen Druckansicht
Roter Roboter mit Sprechblase

(Bild: iX)

Lesezeit: 7 Min.

Ob als Hilfsmittel in der Wissensverwaltung, als Suchmaschinenalternative oder Sparringspartner beim Programmieren - der Einsatz von generativer KI und großen Sprachmodellen begleitet offiziell und inoffiziell den Arbeitsalltag. Besonders aus Compliance-Sicht ist dabei ein geplanter und strukturierter Einsatz durch aufgeklärte Angestellte wünschenswert, anstatt eine Schatten-IT mit KI-Werkzeugen und -Modellen wuchern zu lassen. Will man die Modelle nach dem Erproben von Prototypen dann in den produktiven Einsatz bringen, kann das zu strukturellen Problemen führen. Wie sich Unternehmen schon von Anfang an selbst helfen können, skizziert iX im Kurzinterview.

Welche Use-Cases von großen Sprachmodellen etablieren sich derzeit denn tatsächlich im operativen Betrieb von Unternehmen?

Typische Use-Cases, die schnell im operativen Betrieb Fahrt aufnehmen können, finden sich im Bereich Kundenkommunikation oder im Vertrieb. Das sind natürlich die typischen Chatbots oder auch die Qualifizierung von Leads. Aber auch in den Rechts-, Beschaffungs- und Finanzabteilungen, in HR oder in der Produktentwicklung verlassen viele LLMs den Experimentierstatus und entfalten zunehmend ihre Tragweite im operativen Arbeitsalltag. Die Zahl der möglichen Anwendungsfälle ist also immens. Das erschwert zugleich die Entscheidungen in Organisationen: Womit fange ich an? Was ist das richtige Produkt für welchen Anwendungsfall?

Im Interview: Sofiane Fessi
Im Interview: Sofiane Fessi

Sofiane Fessi verfügt über 15 Jahre Erfahrung in verschiedenen analytischen und datenwissenschaftlichen Funktionen, vor allem im Bereich Digital und E-Commerce. Bevor er als Regional Vice President Sales Engineering Central Europe zu Dataiku kam, beriet er verschiedene große Unternehmen in Großbritannien bei der Anwendung von Data Science auf Web-Analytics- und E-Commerce-Daten.

Es empfiehlt sich ganz grundsätzlich, nicht mit den Moonshots loszulegen, denn das Implementieren von KI sollte immer auch aus menschlicher Perspektive gedacht werden. Und sowohl Entscheider als auch Mitarbeitende sind deutlich motivierter, wenn sich nicht alles endlos in die Länge zieht, sondern zeitnah erste Resultate in Form von weniger Administration und mehr Produktivität sichtbar sind.

Wie finde ich das passende Modell und bewerte dann dessen Qualität?

Teamleiterinnen und Entscheider sollten dabei einige Grundregeln beachten: Es sind nicht die Daten-Teams, die den Business-Abteilungen vorgeben sollten, was diese zu nutzen haben. Im Gegenteil. Die Anwender wissen am besten, was ihnen wirklich hilft. Und da die Angestellten sich dann auf eigene Faust unerlaubt und unkoordiniert Produkte für den Einzelfall beschaffen, entsteht häufig eine unkontrollierte Schatten-IT. Organisationen sollten also zuallererst einen Weg finden, die eigentlichen Anwender von Anfang an in den Prozess einzubinden. Außerdem sollte von vornherein klar sein, wie man nach einer Experimentierphase die Leistung einer KI-Anwendung bewertet. Und zuletzt sollte Wert auf Flexibilität gelegt werden. Entpuppt sich eine KI-Lösung als weniger geeignet als erhofft, sollte man diese möglichst einfach austauschen können. Wer erfolgreich solche Rahmenbedingungen für Partizipation, Transparenz, Kontrolle und Compliance gelegt hat, hat den Großteil seiner Hausaufgaben bereits erledigt.

Die Arbeitsqualität der großen Sprachmodelle hängt allerdings nicht nur von den Modellen selbst ab, sondern auch von den verfügbaren Daten und der Fähigkeit der Belegschaft, mit den KI-Anwendungen umzugehen. Eine Umfrage unter 400 IT-Führungskräften zeigt, dass 58 Prozent der befragten Unternehmen einen Mangel an qualitativ hochwertigen Daten für KI-Verarbeitung oder den fehlenden Zugang zu diesen beklagen. Allerdings schulten zum Zeitpunkt der Umfrage auch nur 57 Prozent der Befragten ihre Angestellten für den Umgang mit Daten. Sind diese Voraussetzungen gegeben, kann man sich der Bewertung der eigentlichen Mechanismen von LLMs annehmen.

Grob lässt sich die Ergebnisqualität von LLMs anhand der Kriterien Genauigkeit, Relevanz und Klarheit ihrer Argumentation oder Antworten bewerten. Die Antwortgenauigkeit bewertet, ob die ausgespielte Antwort sachlich korrekt ist, während die Antwortrelevanz misst, ob die Antwort relevant und thematisch auf die gestellte Frage bezogen ist. Wohlgemerkt: Korrektheit bedingt nicht immer Relevanz, denn LLMs können auch eine korrekte Antwort geben, die nicht auf die gestellte Frage eingeht.

Wir beobachten oftmals, dass Unternehmen Kriterien zur Leistungsbewertung ihrer LLMs nur stichprobenhaft und manuell überprüfen, was allerdings keine adäquate Evaluierung von Modellen zulässt. Bei den rasant wachsenden Datenmengen, die LLMs bearbeiten, ist es für das menschliche Auge schlichtweg unmöglich, mitzuhalten. Soll es auch nicht, denn das ist schließlich die Daseinsberechtigung solcher Modelle. Es gilt daher, einen robusten, datengesteuerten Bewertungsrahmen einzuführen. Die bereits angeführten Kriterien der Treue, Korrektheit und Relevanz von Antworten sowie der Präzision des Kontexts dienen als Bewertungsgrundlage für Überwachungstechniken wie die "LLM-as-a-judge"-Technik, bei der eine speziell erstellte Eingabeaufforderung ein sekundäres LLM als Proxy für die menschliche Bewertung verwendet. Andere hilfreiche Metriken wie BERT-Score, ROUGE und BLEU basieren auf statistischen, traditionellen NLP-basierten Techniken.

Videos by heise

Was braucht es, um den Schritt von der Experimentierphase zum operativen Betrieb zu schaffen?

Neben den bereits skizzierten Spielregeln und dem Problem mit den Daten hat unsere Umfrage unter 400-IT-Führungskräften weitere interessante Punkte ans Licht gebracht. 44 Prozent nennen die mangelnden Ressourcen und 28 Prozent fehlendes Know-how als typische Bremsen in ihren Unternehmen. Zudem dominieren seit Inkrafttreten des AI Acts die Themen Compliance und Kontrolle die Diskussionen. Ich sehe den Schlüssel zum Erfolg darin, die Agilität und hohe intrinsische Motivation, die wir im Fall von Schatten-IT erleben, in eine kontrollierte Umgebung zu überführen. Budgets für den Einsatz von LLMs, Zugriffsrechte auf Daten, aber auch das Nutzen verschiedener LLMs müssen sich so einfach wie möglich kontrollieren und verwalten lassen. Wenn die Compliance-Themen zu viel Zeit von Verantwortlichen und einzelnen Mitarbeitenden in Anspruch nehmen, entwickelt sich das zu einem Motivationskiller.

Schlussendlich steht und fällt aber alles mit dem echten Mehrwert. Wer Mitarbeitende zwingen will, landet in einer Sackgasse. Die Partizipation an und der Einsatz von LLMs sollten für alle so einfach wie möglich sein. Ich bin überzeugt, dass KI-Agenten 2025 die Anwendung im operativen Betrieb extrem beschleunigen werden. Zwang ist daher eher kontraproduktiv: 65 Prozent der befragten Führungskräfte haben erklärt, dass ihre GenAI-Initiativen finanziell erfolgreich sind und einen strategischen Mehrwert bieten. Welches Argument könnte mehr überzeugen?

Herr Fessi, vielen Dank für Ihre Antworten.

Wer schon große Sprachmodelle und Retrieval Augmented Generation im Unternehmen einsetzt, sollte sich dringend Gedanken zur Sicherheit der Modelle machen. Hier gibt die Titelstrecke der iX 01/2025 wichtige Hinweise.

In der Serie "Drei Fragen und Antworten" will die iX die heutigen Herausforderungen der IT auf den Punkt bringen – egal ob es sich um den Blick des Anwenders vorm PC, die Sicht des Managers oder den Alltag eines Administrators handelt. Haben Sie Anregungen aus Ihrer tagtäglichen Praxis oder der Ihrer Nutzer? Wessen Tipps zu welchem Thema würden Sie gerne kurz und knackig lesen? Dann schreiben Sie uns gerne oder hinterlassen Sie einen Kommentar im Forum.

(pst)