Qualitätsgesicherte Machine-Learning-Workflows mit PyDeequ

MLOps-Werkzeuge und -Frameworks, die Auskunft über die Qualität von Trainingsdaten für Machine Learning geben, sind wichtig. Wir zeigen, was PyDeequ kann.

Artikel verschenken

21.04.2022, 06:05 Uhr

Lesezeit: 7 Min.

iX Magazin

Von

Ramon Wartala

Qualitätsgesicherte Machine-Learning-Workflows mit PyDeequ
- PyDeequ
Erste Datenanalyse
Daten überprüfen
Fazit
Übersichtstabelle

Artikel in iX 5/2022 lesen

Datenwissenschaftler und Softwareentwickler greifen heutzutage häufig in denselben Werkzeugkasten. Beim Erstellen von Machine-Learnig-Modellen sind hochwertige Trainings- und Evaluationsdaten wichtig. So wie Entwickler Codeabschnitte mit Unit-Tests prüfen, unterziehen auch Data Scientists ihre Daten einer Qualitätssicherung.

Am Anfang des Modelltrainings steht die Auswahl geeigneter Daten. Dann kommt eine Datenexploration, um sich einen Überblick über die Datenmenge und -qualität zu verschaffen. Dabei zeigen Werkzeuge, wie die Ausprägungen von Merkmalen verteilt sind, ob und wie viele Ausreißer es gibt und wie die Wertebereiche aussehen. Für kleinere Datenmengen genügt ein Toolset aus Python und pandas oder ein geeignetes Datenexplorationsmodul wie Pandas Profiling, Sweetviz oder D-Tale. In diese Kategorie fällt auch DuckDQ, das weder vor pandas-DataFrames noch vor CSV- und Parque-Dateien oder Datenbanktabellen haltmacht. Allerdings reicht der Hauptspeicher beim statistischen Auswerten sehr großer Datenbestände in der Regel nicht aus.

In diesem Fall kann man zu verteilten Datenhaltungs- und Analysesystemen wie Apache Spark oder Apache Beam greifen. Innerhalb des TensorFlow-Toolstacks erledigt dies zum Beispiel TensorFlow Data Validation (TFDV). Apache Griffin bietet eine Java-basierte Integration in den Hadoop-/Spark-Toolstack. Mit der in Scala geschriebenen Spark-Bibliothek Deequ lassen sich Datenqualitätstests definieren. Für Data Engineers und Data Scientists mit einem Faible für Python bietet PyDeequ eine vertraute Schnittstelle.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Zettelkastenmethode: Mit diesen Apps organisieren Sie Ihre digitalen Notizen

Mit dem Konzept des Zettelkastens von Niklas Luhmann können Sie Ihr Chaos an Notizen bändigen. Wir erklären, mit welchen Apps Sie es digital umsetzen.

Betriebssysteme: Was extra schlanke Windows-Variationen taugen

Für Windows gibt es inoffizielle, minimalistische Variationen. Wir erklären, was Atlas, ReviOS und Tiny11 bringen, wenn man sich auf sie einlässt.

USB-SSD-Gehäuse mit RAID-Funktionen im Test

Die vier USB-Gehäuse mit RAID-Funktionen für zwei SSDs versprechen, beim Defekt eines Datenträgers immer noch eine Sicherheitskopie zu haben.

Kühlen mit der Wärmepumpe: Wenn die Fußbodenheizung Kälte liefert

Wärmepumpen heizen nicht nur effizient, sie können Wohnräume auch kühlen. Was das fürs Verteilsystem bedeutet und welche Temperaturen möglich sind.

Wichtiges Wissen: Wärmepumpe

Saharastaub und Pollen: (Warum) sollte ich meine Solaranlage reinigen?

Nach einigen Jahren können vor allem flach montierte Solarplatten siffig aussehen und entsprechend Leistung verlieren. Muss man die Platten zwingend reinigen?

Sony Xperia 1 VI mit Zoomkamera im Test

In der sechsten Auflage passt Sony das Xperia 1 etwas an den Smartphone-Mainstream an. Dennoch liefert es vieles, was das Gerät vom restlichen High End abhebt.

nach oben

Alle Angebote

Newsletter heise-Bot Push Push-Nachrichten

${intro} ${title}