Datenqualität mit der Python-Bibliothek Great Expectations sichern

Great Expectations unterstützt Data Scientists und Data Engineers bei der Datenqualitätssicherung. Es ist eine komplexe Software mit niedrigen Eintiegshürden.

Artikel verschenken
In Pocket speichern vorlesen Druckansicht
Lesezeit: 12 Min.
Von
  • Kolja Maier
  • Marcel Spitzer
Inhaltsverzeichnis
Python-Bibliotheken

Data-Science- oder KI-Projekte sind nur dann erfolgreich, wenn die Qualität der Daten stimmt. Die kontinuierliche Überwachung der Datenqualität ähnelt ein wenig den Testing-Ansätzen zur Sicherstellung der Codequalität in der klassischen Softwareentwicklung.

Kolja Maier

Kolja Maier entwickelt als Data und ML Engineer bei inovex Realtime- und Batch-Architekturen zur Datenverarbeitung in verteilten Systemen und nutzt maschinelle Lernverfahren, um Datenprodukte intelligenter zu machen.

Marcel Spitzer

Marcel Spitzer ist Data Engineer bei inovex. Er beschäftigt sich mit der Aufbereitung und Verknüpfung von Daten aus unterschiedlichsten Quellen, sodass auf deren Grundlage Erkenntnisse gewonnen und Entscheidungen abgeleitet werden können.

Das Projekt Great Expectations (GE) orientiert sich an einigen dieser Best Practices aus dem Softwareengineering und adaptiert sie auf den Datenbereich. Great Expectations ist eine quelloffene Python Library mit umfangreichen Möglichkeiten zur Sicherstellung von Datenqualität, zur Dokumentation sowie zum Profiling von Daten.

Mithilfe von Great Expectations lässt sich über die gesamte Datenverarbeitungskette ein Mindestmaß von Qualitätsanforderungen systematisch überprüfen und somit der Entstehung von Data Swamps entgegenwirken.

Das war die Leseprobe unseres heise-Plus-Artikels "Datenqualität mit der Python-Bibliothek Great Expectations sichern". Mit einem heise-Plus-Abo können sie den ganzen Artikel lesen und anhören.