Analyse mit Python: Daten optimal auswerten mit D-Tale
Der erste Blick auf Daten entscheidet oft, wie man mit ihnen umgeht. Die Python-Bibliothek D-Tale sieht aus wie Excel, bietet aber bessere Analysefunktionen.
- Arnd Scharpegge
Wer oft mit Daten arbeitet, kennt das Problem: Es gibt eine neue Datenquelle und man möchte sie schnell analysieren, auch um mehr Details erfahren. Der Nutzer möchte wissen, wie die Werte verteilt sind, wo keine Werte stehen und vieles mehr.
Dabei hängt der Fokus immer vom Zweck des Projektes ab: Beim Aufbereiten von Daten für Machine Learning liegt der Schwerpunkt etwa auf der Anwendung statistischer Methoden, um die Daten zu bearbeiten. Bei der Betrachtung der Daten im Kontext einer spezifischen Geschäftslogik ist das Hauptaugenmerk darauf gerichtet, mögliche Schwachstellen aufzudecken. Hierbei ist es besonders wichtig, dass alle relevanten Details vollständig vorliegen, insbesondere solche, die für Stammdaten von Bedeutung sind.
Dieser Artikel zeigt, wie sich mithilfe der Python-Bibliothek Pandas Daten analysieren lassen. Im Vordergrund steht dabei das Projekt D-Tale: Damit startet der Nutzer einfach einen Webclient, um Daten schnell analysieren zu können. Als Beispiel nehmen wir Wetterdaten vom Deutschen Wetterdienst und typische Produktionsdaten, wie Material- und Stücklisten. D-Tale sieht auf den ersten Blick wie Excel aus, ist aber wesentlich besser geeignet, um Daten schnell und umfassend einzuordnen. Erfahrungen mit Pandas sind dabei nicht unbedingt nötig, helfen aber.
Das war die Leseprobe unseres heise-Plus-Artikels "Analyse mit Python: Daten optimal auswerten mit D-Tale". Mit einem heise-Plus-Abo können sie den ganzen Artikel lesen und anhören.