DB-Management: Datendubletten mit Python entfernen

Die Beseitigung von Datendubletten erfordert viel Handarbeit. Python bietet einige Bibliotheken und Tools, die helfen, dieses Ärgernis aus Listen zu entfernen.

Artikel verschenken

4

13.07.2022, 12:00 Uhr

Lesezeit: 23 Min.

iX Magazin

Von

Dr. Roland Pleger

DB-Management: Datendubletten mit Python entfernen
- Daten und Werkzeuge
Tabellenkalkulation mit pandas
Dubletten finden
Python und SQL
Wörter vergleichen mit RapidFuzz
Vorbereitung für Record Linkage
Bestehende Liste um Einträge erweitern
Fazit

Artikel in iX 9/2022 lesen

Theoretisch dürfte es sie nicht geben: Dubletten in Datenbanken. Dennoch tauchen sie auf, versteckt beispielsweise durch Falschschreibungen. Die schlechte Nachricht für Entwickler ist, dass das Entfernen viel Handarbeit erfordert. Zum Glück nimmt einem Python mit einigen Bibliotheken viel Arbeit ab. Am Beispiel vorprozessierter Testdaten erläutert dieser Artikel das Erkennen und Bewerten von Wortähnlichkeiten, das Erkennen und Entfernen von Dubletten, das Auswerten redundanter Informationen, das Erweitern von Tabellen und schließlich das Verknüpfen mit Join. Im Folgenden steht Dublette sinngemäß nicht nur für Doppeleinträge, sondern allgemein für Mehrfachnennungen.

Dieser Artikel demonstriert das Vorgehen beispielhaft an einer Liste von Restaurants. Die University of Texas stellt sie für Erkennungstests bereit. Ist es gut, wenn dort ein Name mehrfach auftaucht? Wäre sie die Grundlage für Fördergelder, würden Mehrfacheinträge ungerechtfertigt profitieren.

Umgekehrt verhielte es sich mit der Zahl positiver Restaurantbewertungen, die sich durch die Aufteilung entsprechend verringerte. Die Situation entgleitet, wenn man Tabellen um Attribute aus anderen Quellen ergänzen will. Dubletten sind im relationalen Datenmodell nicht vorgesehen. Ein Schlüsselelement des relationalen Datenbankkonzepts ist die Redundanzfreiheit. Andernfalls versagt der typische SQL-Verbund mit Join.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

EUDI-Wallet: Welche Rolle PID und PID-Provider im EUDI-Wallet-Ökosystem spielen

Die PID (Person Identification Data) macht den Personalausweis zur digitalen Kernidentität. Ein Überblick, wie die Herausgabe über die Bundesdruckerei abläuft.

Familienfotos mit KI restaurieren und kolorieren

Alte Familienfotos sind oft unscharf, körnig und zerkratzt. Künstliche Intelligenz kann verloren geglaubte Details zurückholen. Diese KI-Tools helfen dabei.

Private Energiewende für Skeptiker: Praxisbericht – Wenn es nur ums Geld geht

Solarmodule und Windräder erhitzen die Gemüter. Mit nüchterner Betrachtung stellen aber selbst Skeptiker fest: Es kann sich lohnen. Eine persönliche Historie.

10-kWp-Solaranlage ohne Elektriker: So geht's

Die neue Anschlussnorm für Kleinsterzeuger sieht keine Begrenzung der DC-Leistung vor, wohl aber maximal 800 W Erzeugungsleistung. Aber da geht mehr ...