Qualitätsgesicherte Machine-Learning-Workflows mit PyDeequ

Erbsenzähler

Ramon Wartala

Miese Trainingsdaten für Machine Learning führen wie schlechte Schullehrer zu durchwachsenen Lernerfolgen. MLOps-Werkzeuge und -Frameworks, die während der Laufzeit Auskunft über die Qualität der Daten geben, sind deshalb unabdingbar.

Datenwissenschaftler und Softwareentwickler greifen heutzutage häufig in denselben Werkzeugkasten. Beim Erstellen von Machine-Learnig-Modellen sind qualitativ hochwertige Trainings- und Evaluationsdaten wichtig. So wie Entwickler Codeabschnitte mit Unit-Tests prüfen, unterziehen auch Data Scientists ihre Daten einer Qualitätssicherung. Der MLOps-Prozess besteht dabei aus sieben Komponenten:

eingehende Daten validieren;
geeignete Merkmale (Features) aus den eingehenden Daten auswählen und berechnen;
Trainings- und Testdaten erzeugen;
das Modell trainieren;
das Modell validieren;
das Modell ausliefern;
das Modell in Produktion überwachen.

Am Anfang des Modelltrainings steht die Auswahl geeigneter Daten. Dann kommt eine Datenexploration, um sich einen Überblick über die Datenmenge und -qualität zu verschaffen. Dabei zeigen Werkzeuge, wie die Ausprägungen von Merkmalen verteilt sind, ob und wie viele Ausreißer es gibt und wie die Wertebereiche aussehen.

Qualitätsgesicherte Machine-Learning-Workflows mit PyDeequ

Erbsenzähler

Angebot auswählen und weiterlesen

Alle heise-Magazine mit heise+ lesen

Das digitale Abo für IT und Technik.

Alle Ausgaben freischalten

Ausgabe einmalig freischalten