Freie Software von Talend findet und beseitigt Dubletten

Ein Update der Datenqualitätswerkzeuge von Talend bringt unter anderem benutzerdefinierbare Regeln für Datenfelder und automatische Dublettenbereinigung.

In Pocket speichern vorlesen Druckansicht
Lesezeit: 1 Min.
Von
  • Christian Kirsch

In der neuen Version von Talends freien Tools "Open Profiler" und "Data Quality" können Benutzer erstmals selbst Plug-ins erstellen. Damit ist es möglich, Regeln funktionale Abhängigkeiten zwischen Spalten in einer Tabelle zu definieren und ihre Einhaltung zu überwachen. Anders als die üblichen Constraints für Datenbanktabellen operieren diese Regeln auf bereits vorhandenen Daten. Sie funktionieren zudem mit Datenbanken, die von Haus aus keine oder nur wenig Unterstützung für Constraints mitbringen, etwa MySQL.

In Data Quality ist eine Funktion zum Bereinigen von Dubletten hinzugekommen. Findet die Analyse einer Tabelle besonders viele Doppler, erstellt das Programm einen "Prozess" zum Beseitigen der überzähligen Daten.

Neu ist außerdem die Anbindung von IBMs DB2 auf z/OS und der iSerie (bisher AS/400). Außerdem arbeitet die Software mit Microsofts SQL Server, Oracle, DB2/LUW (Linux, Unix, Windows), MySQL und PostgreSQL zusammen.

Open Profiler und Data Quality laufen auf Windows, Linux und OS X und benötigen eine Java-Umgebung. Open Profile ist kostenlos verfügbar, es dient lediglich zur Analyse der Datenbestände. Ändern lassen sie sich mit dem kostenpflichtigen Data Quality, das Open Profile enthält. (ck)