Data Science: Datenvisualisierung mit Jupyter-Notebooks

Jupyter-Notebooks eignen sich zusammen mit Python für das Visualisieren von Daten. Sie kommen häufig in den Bereichen Data Science und Datenanalyse zum Einsatz.

Artikel verschenken
In Pocket speichern vorlesen Druckansicht 26 Kommentare lesen
Lesezeit: 11 Min.
Von
  • Prof. Stefanie Scholz
  • Prof. Christian Winkler
Inhaltsverzeichnis

Für die Datenanalyse und Statistik (neudeutsch: Data Science) hat sich in den letzten Jahren neben R mehr und mehr die Kombination aus der Programmiersprache Python und Jupyter Notebook zum interaktiven Analysieren und Visualisieren als Plattform etabliert. Die Bibliothek pandas erlaubt dabei die einfache Verarbeitung auch großer Datenmengen und leistungsfähige Transformationen zwischen unterschiedlichen Formaten und Darstellungen. Mithilfe von GeoPandas gelingt es auch, Geodaten in den gängigen Formaten zu lesen und in pandas zu nutzen.

pandas integriert Matplotlib und erlaubt damit viele Visualisierungsvarianten mit nur einem einzigen Befehl. Das Python-Ökosystem hat hier noch deutlich mehr zu bieten, etwa das auf Matplotlib aufbauende seaborn. Beide Varianten finden im Artikel Verwendung, daneben gibt es weitere wie Plotly oder Bokeh.

Manchmal ist es schwierig, sich in der Vielfalt der möglichen Darstellungen zurechtzufinden, und man ist versucht, eine optisch besonders ansprechende Visualisierung zu wählen. Dies kann jedoch dazu führen, dass Verständlichkeit und richtige Interpretation der Darstellung darunter leiden. Die Financial Times hat sich darüber in ihrem Datenjournalismusteam Gedanken gemacht und ein sogenanntes Visual Vocabulary geschaffen, mit dem sich fast alle denkbaren Visualisierungsszenarien abdecken lassen. Dieser Artikel lehnt sich in der Auswahl der Diagramme an diesen Vorgaben an.