Datenqualität mit der Python-Bibliothek Great Expectations sichern
Great Expectations unterstützt Data Scientists und Data Engineers bei der Datenqualitätssicherung. Es ist eine komplexe Software mit niedrigen Eintiegshürden.
- Kolja Maier
- Marcel Spitzer
Data-Science- oder KI-Projekte sind nur dann erfolgreich, wenn die Qualität der Daten stimmt. Die kontinuierliche Überwachung der Datenqualität ähnelt ein wenig den Testing-Ansätzen zur Sicherstellung der Codequalität in der klassischen Softwareentwicklung.
Das Projekt Great Expectations (GE) orientiert sich an einigen dieser Best Practices aus dem Softwareengineering und adaptiert sie auf den Datenbereich. Great Expectations ist eine quelloffene Python Library mit umfangreichen Möglichkeiten zur Sicherstellung von Datenqualität, zur Dokumentation sowie zum Profiling von Daten.
Mithilfe von Great Expectations lässt sich über die gesamte Datenverarbeitungskette ein Mindestmaß von Qualitätsanforderungen systematisch überprüfen und somit der Entstehung von Data Swamps entgegenwirken.
Das war die Leseprobe unseres heise-Plus-Artikels "Datenqualität mit der Python-Bibliothek Great Expectations sichern". Mit einem heise-Plus-Abo können sie den ganzen Artikel lesen und anhören.