iX 5/2022
S. 54
Titel
Machine Learning

Qualitätsgesicherte Machine-Learning-Workflows mit PyDeequ

Erbsenzähler

Ramon Wartala

Miese Trainingsdaten für Machine Learning führen wie schlechte Schullehrer zu durchwachsenen Lernerfolgen. MLOps-Werkzeuge und -Frameworks, die während der Laufzeit Auskunft über die Qualität der Daten geben, sind deshalb unabdingbar.

Datenwissenschaftler und Softwareentwickler greifen heutzutage häufig in denselben Werkzeugkasten. Beim Erstellen von Machine-Learnig-Modellen sind qualitativ hochwertige Trainings- und Evaluationsdaten wichtig. So wie Entwickler Codeabschnitte mit Unit-Tests prüfen, unterziehen auch Data Scientists ihre Daten einer Qualitätssicherung. Der MLOps-Prozess besteht dabei aus sieben Komponenten:

  • eingehende Daten validieren;
  • geeignete Merkmale (Features) aus den eingehenden Daten auswählen und berechnen;
  • Trainings- und Testdaten erzeugen;
  • das Modell trainieren;
  • das Modell validieren;
  • das Modell ausliefern;
  • das Modell in Produktion überwachen.

Am Anfang des Modelltrainings steht die Auswahl geeigneter Daten. Dann kommt eine Datenexploration, um sich einen Überblick über die Datenmenge und -qualität zu verschaffen. Dabei zeigen Werkzeuge, wie die Ausprägungen von Merkmalen verteilt sind, ob und wie viele Ausreißer es gibt und wie die Wertebereiche aussehen.

Kommentieren