Datenqualität messen mit Pentaho

Datenqualität ist ein kritischer Erfolgsfaktor für Unternehmen. Was aber genau ist Datenqualität und wie lässt sie sich messen? Ein Proof of Concept bei einem großen TK-Anbieter demonstriert die Messung der Datenqualität mit der BI-Suite Pentaho.

vorlesen Druckansicht 5 Kommentare lesen
Lesezeit: 17 Min.
Von
  • Andreas Krisor
Inhaltsverzeichnis

Um Entscheidungen in Unternehmen bestmöglich treffen zu können, müssen sie auf Informationen basieren, an die hohe Anforderungen zu stellen sind: Die richtigen Informationen müssen zur richtigen Zeit am richtigen Ort verfügbar sein. Der Begriff Datenqualität bezieht sich primär auf den ersten Aspekt, die Korrektheit und Vollständigkeit von Daten und den daraus abgeleiteten Informationen. Implizit ist aber auch der zweite Aspekt, die Aktualität der Informationen zu betrachten, denn veraltete Informationen sind in dynamischen Umgebungen wie der eines Unternehmens in der Regel nicht mehr korrekt. Entscheidungen, die auf Basis von falschen oder unzureichenden Informationen – also von Daten schlechter Qualität – getroffen werden, können nicht optimal sein, wie die nachfolgende Beispiele verdeutlichen.

Ein Versandhaus denkt über eine Marketingaktion nach, mit der man die Kundenbindung stärken möchte. Die besonders umsatzstarken Kunden sollen dazu mit einem Gutschein belohnt werden, der per Post zugesandt werden soll. Also wird aus dem Kundenmanagement‐System eine Liste aller Kunden mit Postadressen erstellt, die in den letzten 12 Monaten mehr als 2.000 Euro Umsatz gemacht haben. 100 Kunden fallen in das Raster.

Nach einiger Zeit soll geprüft werden, wie gut die Kunden auf diese Aktion reagiert haben. Im Rahmen dieser Kontrolle fällt auf, dass zwei Kunden bei der ersten Auswertung nicht berücksichtigt wurden. Frau Müller hatte kurz vor der ersten Auswertung Waren im Wert von 2.500 Euro gekauft, die jedoch aufgrund einer Prozessstörung nicht vom Buchungssystem an das Kundenmanagement‐System weitergeleitet wurden – es wurde also auf nicht aktuelle und damit falsche Daten zugegriffen. Herr Meier hingegen war kurz vor der Aktion umgezogen und hatte die Adressänderung über ein Self‐Service‐Portal selbst durchgeführt. Unglücklicherweise wurde bei dieser Änderung die alte Adresse gelöscht, ohne dass die neue gespeichert wurde – ein Softwarefehler war hierfür die Ursache. Hier wurde durch das Fehlen von Daten das Ergebnis der Auswertung verfälscht.

Nicht nur in externen Beziehungen, sondern auch bei internen Abläufen und Unternehmensfunktionen bildet eine hohe Datenqualität die Grundlage für gute Entscheidungen. Das bereits erwähnte Versandhaus besitzt eine regionale Vertriebsstruktur und einen zentralisierten Einkauf. Letzterer muss sicherstellen, dass die verschiedenen Standorte ihre Lagerbestände zeitnah und korrekt übermitteln – sonst werden unter Umständen Waren zu spät oder gar nicht bestellt, weil der angenommene Lagerbestand geringer ist als der tatsächlich verfügbare. Das führt dazu, dass Waren nicht ausgeliefert oder nicht verkauft werden können – es kommt zu Umsatzverzögerungen oder gar zu Umsatzverlust.

In vielen Fällen wird eine schlechte Datenqualität also erst durch ihre Auswirkungen erkennbar, und für eine Korrektur ist es schon zu spät – etwa wenn sich der Kunde beschwert oder man feststellt, dass benötigte Ressourcen nicht verfügbar sind. Es gilt daher, bestehende Datenqualitätsmängel frühestmöglich – also bevor sie zu Problemen führen – zu erkennen. Aber: Wie misst man Datenqualität?