Python für Datenanalysen: Effiziente Aufbereitung von Rohdaten mit pandas

Die Aufbereitung von Rohdaten macht bei Datenanalysen einen Großteil des Aufwands aus. Die Bibliothek pandas bringt dafür Datenstrukturen und Funktionen mit.

Artikel verschenken
In Pocket speichern vorlesen Druckansicht 1 Kommentar lesen
Lesezeit: 20 Min.
Von
  • Wadim Wormsbecher
Inhaltsverzeichnis

Eine besonders beliebte Bibliothek für die Datenanalyse mit Python ist pandas. Sie bietet einen einfachen und dabei sehr effizienten Weg, Daten zu analysieren und zu verwerten. pandas selbst baut auf NumPy auf, einer Bibliothek, die eine hocheffiziente Arithmetik in Python implementiert. So kann NumPy mit Vektoren und Matrizen rechnen und nicht nur mit einzelnen Zahlen. Dies erlaubt eine gewaltige Steigerung der Recheneffizienz. NumPy führt die Berechnungen nicht in Python aus, sondern in C-Code und umgeht so viele Nachteile von reinem Python.

Im folgenden Beispiel kommt als IDE ein Jupyter-Notebook in Google Colab zum Einsatz. Wer lieber lokal arbeitet, sollte beachten, dass sich die pandas-Versionen teilweise stark voneinander unterscheiden. Dieser Artikel arbeitet mit Python 3.7.12 und pandas 1.1.5. Letzteres besitzt diverse Abhängigkeiten und es gilt, darauf zu achten, dass sie mit installiert werden, was in der Regel automatisch klappt.

Bedienoberflächen für Python

Die Beispiele in diesem Artikel nutzen den Datensatz "Customer Personality Analysis" von kaggle.com. Dank der Lizenz Creative Commons CC0 1.0 darf er beliebig genutzt werden. Es handelt sich um Personendaten einer fiktiven Marketingkampagne.