Freie Software von Talend findet und beseitigt Dubletten
Ein Update der DatenqualitĂ€tswerkzeuge von Talend bringt unter anderem benutzerdefinierbare Regeln fĂŒr Datenfelder und automatische Dublettenbereinigung.
In der neuen Version von Talends freien Tools "Open Profiler" [1] und "Data Quality" [2] können Benutzer erstmals selbst Plug-ins erstellen. Damit ist es möglich, Regeln funktionale AbhĂ€ngigkeiten zwischen Spalten in einer Tabelle zu definieren und ihre Einhaltung zu ĂŒberwachen. Anders als die ĂŒblichen Constraints fĂŒr Datenbanktabellen operieren diese Regeln auf bereits vorhandenen Daten. Sie funktionieren zudem mit Datenbanken, die von Haus aus keine oder nur wenig UnterstĂŒtzung fĂŒr Constraints mitbringen, etwa MySQL.
In Data Quality ist eine Funktion zum Bereinigen von Dubletten hinzugekommen. Findet die Analyse einer Tabelle besonders viele Doppler, erstellt das Programm einen "Prozess" zum Beseitigen der ĂŒberzĂ€hligen Daten.
Neu ist auĂerdem die Anbindung von IBMs DB2 auf z/OS und der iSerie (bisher AS/400). AuĂerdem arbeitet die Software mit Microsofts SQL Server, Oracle, DB2/LUW (Linux, Unix, Windows), MySQL und PostgreSQL zusammen.
Open Profiler und Data Quality laufen auf Windows, Linux und OS X und benötigen eine Java-Umgebung. Open Profile ist kostenlos verfĂŒgbar, es dient lediglich zur Analyse der DatenbestĂ€nde. Ăndern lassen sie sich mit dem kostenpflichtigen Data Quality, das Open Profile enthĂ€lt. (ck [3])
URL dieses Artikels:
https://www.heise.de/-848399
Links in diesem Artikel:
[1] http://www.talend.com/products-data-quality/talend-open-profiler.php
[2] http://www.talend.com/products-data-quality/talend-data-quality.php
[3] mailto:ck@ix.de
Copyright © 2009 Heise Medien