Robuste KI-Anwendungen dank Modellvalidierung

Machine-Learning-Modelle sind einem Alterungsprozess unterworfen, durch den ihre Genauigkeit und Zuverlässigkeit mit der Zeit abnehmen.

2

(Bild: everything possible/Shutterstock.com)

14.03.2023, 08:07 Uhr

Lesezeit: 12 Min.

Developer

Von

Jens-Michael Ruppelt
Konstanze Olschewski

Anders als bei herkömmlicher Software genügt es bei KI-Anwendungen nicht, sie direkt nach dem Entwicklungsprozess gegen eine Spezifikation zu testen. Software, die beispielsweise Qualitätsprognosen oder andere Vorhersagen auf Basis von Machine-Learning-Modellen trifft, muss permanent unter Überwachung stehen. Grund dafür ist ein Problem, das noch zu wenig Beachtung findet, was sich jedoch mit dem zunehmenden produktiven Einsatz ändern wird: Die Genauigkeit und Zuverlässigkeit von ML-Modellen nimmt mit der Zeit permanent ab.

Dieser Alterungsprozess, Model Drift genannt, ist ein durchaus bekanntes Phänomen. Zwar gibt es Ansätze im Lifecycle-Management, die entgegenwirken, aber insbesondere in der maschinellen Fertigung oder Robotik kommen zunehmend KI-Modelle auf Edge-Devices zum Einsatz, die schwieriger zu überwachen und aktualisieren sind als Modelle in der Cloud beziehungsweise im Rechenzentrum.

Das Phänomen Model Drift

Dass ML-Modelle automatisiert und selbstständig lernen, ist leider nach wie vor die Ausnahme, da es mit enormem Aufwand verbunden ist. Für die industriellen Use Cases kommen hauptsächlich ML-Methoden wie Klassifikation und Regression zum Einsatz – und die Modelle sind eher statisch. Die Modelle werden mit historischen Daten trainiert und ermöglichen die Vorhersage anhand der erlernten Muster.

Darin offenbart sich das Problem der Alterung: Das Training auf historischen Daten führt zu einem statischen Modell und reflektiert die Rahmenbedingungen der Vergangenheit. Dieser Rahmen verändert sich allerdings fortwährend und das Modell verliert dabei an Aktualität. Das mögen nur kleinste Nuancen sein, die jedoch erheblichen Einfluss auf die Qualität und Vorhersagegenauigkeit des Gesamtmodells haben. Data Scientists bezeichnen das Phänomen als Model Drift.

Ist das Modell in der Lage, mit den Veränderungen gut umzugehen, spricht man von einem robusten Modell. Das Maß an Robustheit ist in seiner Ausprägung allerdings auch begrenzt: Modelle können nicht beliebig robust trainiert werden und die Varianz ihrer Umwelt beliebig abfedern.

Model Drift beginnt bereits direkt nach dem Modelltraining und ist unausweichlich. Dafür sind zum einen die Abweichungen in den zugrundeliegenden Daten verantwortlich – die Data Drift. Vereinfacht dargestellt tritt sie auf, wenn das Vorhersagemodell mit Daten konfrontiert wird, deren Eigenschaften von denen abweichen, die zum Zeitpunkt des Modelltrainings zur Verfügung standen. Zum anderen wirkt sich ein zweites Phänomen auf die Qualität und Leistung der Modelle über die Zeit aus: Concept Drift. Dabei verändert sich die Beziehung zwischen den erhobenen Daten und der Zielgröße aufgrund von Bedingungen, die nicht im Modell enthalten sind. Schon kleinere Veränderungen können die Vorhersagefähigkeit signifikant beeinflussen und zu einem nicht länger nutzbaren ML-Modell führen.

Validieren der Modelle

ML-Modelle können Fehler aufweisen, und ihre Arbeitsweise ist häufig schwer nachvollziehbar. Das Validieren von KI-Modellen ist daher sowohl ein entscheidender Schritt beim Erstellen des Modells als auch Teil des Standardprozesses CRISP-DM (Cross Industry Standard Process for Data Mining) für die Implementierung der Modelle. Data Scientists prüfen beim Validieren die Qualität und Güte des Modells in unterschiedlichen Bereichen und unter mehreren Gesichtspunkten.

Ziel aller Maßnahmen ist es, die Robustheit und Generalisierungsfähigkeit eines trainierten ML-Modells zu prüfen und damit die in der Praxis erwartbare Leistungsfähigkeit möglichst exakt zu schätzen. Dazu gehört es, Trainings- und Testfehler sowie ihr Verhalten zueinander zu betrachten und daraus Modelleigenschaften abzuschätzen.

Für die Bewertung der Leistungsfähigkeit kommen unterschiedliche Metriken wie der Mean Squared Error (MSE) für Regressionsmodelle sowie Genauigkeit (Accuracy) oder auch der F-Score für Klassifikationsmodelle zum Einsatz. Bei der Wahl der Metrik lohnt sich ein zweiter Blick, welche die passende ist, um für den zugrundeliegenden Use Case eine sinnvolle Aussage zu bekommen.

Gerade im industriellen Bereich sind zudem die Beiträge der unterschiedlichen Parameter zur Modellvorhersage wichtig. Dabei können beispielsweise SHAP Values (SHapley Additive exPlanations) helfen, die zwar keinen kausalen Rückschluss erlauben, aber eine gute Orientierung bieten.

Am 10. und 11. Mai findet die Minds Mastering Machines in Karlsruhe statt. Die seit 2018 von iX, heise Developer und dpunkt.verlag ausgerichtete Fachkonferenz richtet sich in erster Linie an Data Scientists, Data Engineers und Developer, die Machine-Learning-Projekte in die Realität umsetzen.

Das Programm bietet an zwei Tagen gut 30 Vorträge unter anderem zu Sprachmodellen, Cybersecurity, Resilienz und Modelloptimierung. Die Vorträge widmen sich unter anderem dem Umgang mit Verzerrungen in Datenprodukten, der Qualitätssicherung in KI-basierten Systemen und resilientem Machine Learning.

Bis zum 21. März gibt es Tickets zum vergünstigten Frühbucherpreis.

Bisher fehlt es noch an dem Bewusstsein, wie wichtig es ist, produktiv eingesetzte Modelle permanent zu überwachen. Der gesamte Business Case eines industriellen KI-Projekts hängt in hohem Maße von der Fähigkeit des Modells ab, kontinuierlich qualitativ hochwertige Vorhersagen zu treffen.

Je nach Einsatzgebiet ist es schwierig, sinnvolle Strategien und passende Metriken für die Validierung zu finden. Unter Umständen sind die Systemantworten nicht mehr intuitiv nachvollziehbar oder die Komplexität des Algorithmus ist schlichtweg zu hoch. Die Wahl der Maßstäbe und Metriken für Erklärbarkeit und Nachvollziehbarkeit bestimmter Lernverfahren oder das Verifizieren und Validieren solcher Verfahren sind in der Forschung noch nicht endgültig geklärt.