iX 9/2022
S. 129
Praxis
DB-Management

Datendubletten entfernen mit Python

Dubletten in Datensätzen sind so vielgestaltig, dass ihre Beseitigung viel Handarbeit erfordert. Python bietet einige Bibliotheken und Werkzeuge, die dabei helfen, dieses Ärgernis aus den eigenen Listen zu entfernen. Anhand von Beispieldaten demonstriert dieser Artikel, wie das geht.

Von Dr. Roland Pleger

Theoretisch dürfte es sie nicht geben: Dubletten in Datenbanken. Dennoch tauchen sie auf, versteckt beispielsweise durch Falschschreibungen. Die schlechte Nachricht für Entwickler ist, dass das Entfernen viel Handarbeit erfordert. Zum Glück nimmt einem Python mit einigen Bibliotheken viel Arbeit ab. Am Beispiel vorprozessierter Testdaten erläutert dieser Artikel das Erkennen und Bewerten von Wortähnlichkeiten, das Erkennen und Entfernen von Dubletten, das Auswerten redundanter Informationen, das Erweitern von Tabellen und schließlich das Verknüpfen mit Join. Im Folgenden steht Dublette sinngemäß nicht nur für Doppeleinträge, sondern allgemein für Mehrfachnennungen.

Dieser Artikel demonstriert das Vorgehen beispielhaft an einer Liste von Restaurants. Die University of Texas stellt sie für Erkennungstests bereit (siehe ix.de/z4jj). Ist es gut, wenn dort ein Name mehrfach auftaucht? Wäre sie die Grundlage für Fördergelder, würden Mehrfacheinträge ungerechtfertigt profitieren.

Alle heise-Magazine mit heise+ lesen

3,99 € / Woche

Ein Abo, alle Magazine: c't, iX, Mac & i, Make & c't Fotografie

  • Alle heise-Magazine im Browser und als PDF
  • Alle exklusiven heise+ Artikel frei zugänglich
  • heise online mit weniger Werbung lesen
  • Vorteilspreis für Magazin-Abonnenten
Jetzt unbegrenzt weiterlesen Vierwöchentliche Abrechnung.

Alle Ausgaben freischalten

2,60 € 1,49 € / Woche

Nach Testphase 2,60 € wtl.

  • Zugriff auf alle iX-Magazine
  • PDF-Ausgaben zum Herunterladen
  • Zugriff in der iX-App für unterwegs
  • Über 35% günstiger im Testzeitraum
Jetzt testen Nach Testphase jederzeit monatlich kündbar.

Ausgabe einmalig freischalten

9,90 € / Ausgabe

Diese Ausgabe lesen – ohne Abobindung

  • Sicher einkaufen im heise shop
  • Magazin direkt im Browser lesen
  • Dauerhaft als PDF behalten

Kommentieren