Datenqualität messen mit Pentaho

Seite 2: Datenqualität messen

Inhaltsverzeichnis

Die Beispiele zeigen, dass es verschiedene Gründe für eine schlechte Datenqualität geben kann:

  • Fehler in manuellen oder IT‐gestützten Prozessen: Daten werden beispielsweise nicht, verzögert oder falsch von einem System an ein anderes weitergeleitet.
  • Falsch konzipierte Prozesse, die auch im "Sollzustand" Dateninkonsistenzen erzeugen.

Merkmale hoher Datenqualität sind also Konsistenz und die Verfügbarkeit gleicher Informationen in verschiedenen Systemen. Ganze Systeme direkt miteinander zu vergleichen ist jedoch aufgrund von unterschiedlichen Architekturen oft problematisch und macht wenig Sinn. Anders sieht es aus, wenn man eine Stufe tiefer ansetzt: auf der Ebene der sogenannten Geschäftsobjekte.

Diese Geschäftsobjekte oder "Business Entities" eines Unternehmens sind in diesem Kontext Kerninformationsobjekte, die eine betriebswirtschaftliche Relevanz besitzen und durch Geschäftsprozesse erstellt und verändert werden. Geschäftsobjekte können zudem mit anderen Geschäftsobjekten in Beziehung treten und sind in der Regel durch weitere Attribute näher beschrieben.

Für das Objekt "Kunde" sind das zum Beispiel der Vor‐ und Nachname, die Adresse, Mobilfunknummer, Email‐Adresse und so weiter. Eine notwendige Voraussetzung für eine sinnvolle IT-technische Abbildung ist die Identifizierbarkeit der einzelnen Objekte über eines oder mehrere dieser Attribute.

Das geschieht über die sogenannten Identifier (ID). Einzelne Kunden können über ein künstliches Attribut "Kunden‐ID" identifizierbar gemacht werden oder über eine Zusammensetzung von Attributen (etwa Kundenname + Mobilfunknummer + PLZ), wenn die Eindeutigkeit dieser Kombination gewährleistet ist.

Sind die relevanten Attribute einer konkreten "Objektinstanz" (zum Beispiel ein bestimmter Kunde), die über eine ID eindeutig gekennzeichnet ist, in den betrachteten Systemen identisch, so ist die Datenkonsistenz gegeben. Datenqualität kann man nun als Maß für die Gesamtheit der Datenkonsistenzen und –inkonsistenzen definieren, und zwar als Anteil der Anzahl Objektinstanzen ohne Fehler an der Gesamtanzahl der Instanzen des betrachteten Objekts.

Stellt man also in einer Gesamtzahl von 100 Kunden (Objektinstanzen) bei fünf Kunden Inkonsistenzen fest, so ergibt sich eine Datenqualität von 95 Prozent, die auch direkt als "Master KPI" (Key Performance Indicator) übernommen werden kann. Diese Art der Messung kann für alle relevanten Objekte durchgeführt werden; man gewinnt so einen ersten Eindruck der aktuellen Datenqualität im Unternehmen.