Qualitätsgesicherte Machine-Learning-Workflows mit PyDeequ
Erbsenzähler
Miese Trainingsdaten für Machine Learning führen wie schlechte Schullehrer zu durchwachsenen Lernerfolgen. MLOps-Werkzeuge und -Frameworks, die während der Laufzeit Auskunft über die Qualität der Daten geben, sind deshalb unabdingbar.
Datenwissenschaftler und Softwareentwickler greifen heutzutage häufig in denselben Werkzeugkasten. Beim Erstellen von Machine-Learnig-Modellen sind qualitativ hochwertige Trainings- und Evaluationsdaten wichtig. So wie Entwickler Codeabschnitte mit Unit-Tests prüfen, unterziehen auch Data Scientists ihre Daten einer Qualitätssicherung. Der MLOps-Prozess besteht dabei aus sieben Komponenten:
- eingehende Daten validieren;
- geeignete Merkmale (Features) aus den eingehenden Daten auswählen und berechnen;
- Trainings- und Testdaten erzeugen;
- das Modell trainieren;
- das Modell validieren;
- das Modell ausliefern;
- das Modell in Produktion überwachen.
Am Anfang des Modelltrainings steht die Auswahl geeigneter Daten. Dann kommt eine Datenexploration, um sich einen Überblick über die Datenmenge und -qualität zu verschaffen. Dabei zeigen Werkzeuge, wie die Ausprägungen von Merkmalen verteilt sind, ob und wie viele Ausreißer es gibt und wie die Wertebereiche aussehen.