Buchbesprechung: Practical Python Data Visualization fĂĽr eine solide Basis
Das Buch verspricht einen schnellen Einstieg in die Datenvisualisierung mit Python und dessen umfassendem Library-Universum.
- Tam Hanna
Ashwin Pajankar
Practical Python Data Visualization
A Fast Track Approach To Learning Data Visualization With Python
Apress 2021
XV, 160 Seiten, 37,44 Euro
ISBN : 978-1-4842-6454-6
Python gilt aufgrund seiner Einfachheit in "professionellen" Entwicklerkreisen häufig nicht als Programmiersprache der Wahl – es steht aber außer Frage, dass sich Guido van Rossums einst als Lehrsprache entwickeltes Programmiersystem mittlerweile dennoch einen festen Platz in der Runde der "großen" Programmiersprachen erobert hat. Ein entscheidender Grund dafür ist sicherlich, dass Python von einem umfangreichen Bibliotheksschatz flankiert wird, der insbesondere in Mathematik und künstlicher Intelligenz Entwicklerinnen und Entwicklern sehr viel Arbeit erspart. Der Apress-Verlag legt mit "Practical Python Data Visualization" nun ein rund 170 Seiten umfassendes Werk vor, das die Vorzüge beim Einsatz von Python im Bereich der Datenvisualisierungsaufgaben demonstriert.
Der Autor Ashwin Pajankar erwartet Kenntnisse im Bereich der Informatik, praktische Erfahrung mit Python wird jedoch nicht vorausgesetzt. Das zeigt sich besonders in den ersten beiden Kapiteln, in denen Leserinnen und Lesern erfahren, wie man Python auf die Workstation bekommt und den Interpreter im "Interactive Mode" als eine Art Taschenrechner fĂĽr fortgeschrittene Funktionen einsetzt. Danach folgen bereits die Grundlagen zur Arbeit mit Jupyter Notebooks, die als Arbeitsumgebung fĂĽr die ersten Visualisierungsaufgaben dienen. Die AusfĂĽhrungen zu den Jupyter Notebooks sind dabei kein Selbstzweck, sondern der Autor nutzt sie im weiteren Verlauf des Buches gezielt zum AusfĂĽhren von Python-Code und zum Demonstrieren der diversen zur VerfĂĽgung stehenden Bibliotheken.
Wegweiser durch das Chaos
Die Popularität und weite Verbreitung von Python im Bereich Data Science und Machine Learning hat zu einem breiten Angebot verschiedener Implementierungen für vielfältige Einsatzzwecke geführt. Pajankar beginnt seine Reise durch die Datenvisualisierung mit der Bibliothek Leather. Die vergleichsweise einfache Library liefert beim Rendern von Linien- und Balkendiagrammen gute Ergebnisse. Die vorgestellten Beispiele beschränken sich auf das Erzeugen grundlegender Charts, die anschließend um eine Legende und weitere Informationen ergänzt werden. Wer an dieser Stelle auch Ausführungen zur Datenbeschaffung aus Datenbanken oder per REST erwartet, wird allerdings enttäuscht.
Für die Datenvisualisierung und für wissenschaftliches Computing mit Python stehen mit NumPy und MatPlotLib zwei umfassende Bibliotheken parat, an denen kein Weg vorbeiführt. Der Autor widmet dieser Kombination aufgrund ihrer überdurchschnittlichen Bedeutung einen ganzen Kapitel-Komplex, der die Libraries aus mehreren Blickwinkeln beleuchtet. Da NumPy im Allgemeinen seine eigenen Datenstrukturen für das Speichern der zu verarbeitenden Informationen vorzieht, widmet sich der erste Akt des Datenvisualisierungs-Trips durch die Welt der Python-Bibliotheken einer kurzen, aber doch ausreichenden Erklärung, wie man Daten in NumPy vorhält. Danach folgen die bereits mit Leather durchgeführten Experimente rund um Liniendiagramme – die angesichts der umfangreicheren Anpassungsmöglichkeiten von MatPlotLib aber auch deutlich anspruchsvollere Visualisierungsoptionen behandeln.
Linien-, Strukturdiagramme und Ebenen-Charts in 3D
MatPlotLib ist nicht auf zweidimensionale Bilder beschränkt, sondern kann auch dreidimensionale Charts ausgeben. Im sechsten Kapitel greift der Autor auf einen didaktischen Kniff zurück und zeigt in einem ersten Schritt das "Laden" zweidimensionaler Bitmaps und deren massenhafte Verarbeitung. Was auf den ersten Blick überflüssig erscheinen mag, erweist sich in der Praxis als wertvoll – insbesondere im Hinblick darauf, dass diverse mathematische Operationen (beispielsweise in der Shader-Programmierung) Bitmaps zur Anlieferung größerer Datenfelder nutzen. Darüber hinaus kommt auch das Erzeugen dreidimensionaler Linien- und Strukturdiagramme sowie der im wissenschaftlichen Kontext wichtigen Ebenen-Charts nicht zu kurz. Im anschließenden Kapitel demonstriert Pajankar noch, wie sich Graphen in eine ansprechende Form bringen lassen.
Der Coronavirus darf nicht fehlen
Kaum ein aktuelles Data-Science-Lehrbuch verzichtet auf direkte Bezüge zur Corona-Pandemie. Hier macht auch "Practical Python Data Visualization" keine Ausnahme und stellt zunächst die Pandas-Bibliothek kurz vor. Der Autor zeigt dann aber auch anhand der übrigen behandelten Libraries, wie sich die in der Covid-Bibliothek bereitgestellten Pandemie-Informationsdaten visualisieren lassen. Auf die Beschaffung der Informationen geht er allerdings auch an dieser Stelle des Buches nicht ein.
Lohnenswerter Einstieg
Auf knapp 170 Seiten fehlt es an ausreichendem Platz, um die zum Teil sehr umfangreichen Bibliotheken in ihrer Gänze zu behandeln. Pajankar versucht das auch gar nicht erst, sondern fokussiert sich darauf, Entwicklerinnen und Entwicklern jene Anwendungszwecke näherzubringen, in denen sich die verschiedenen Bibliotheken gewinnbringend einsetzen lassen. Damit schafft er eine solide Basis an Grundwissen, das sich durch gezielte Fortbildung individuell weiter ausbauen lässt. Dieser Ansatz macht das Buch durchaus empfehlenswert – insbesondere für jene Interessierten, die sich bisher mit der Datenvisualisierung mit Python noch nicht näher beschäftigt hatten.
Tam Hanna
befasst sich seit dem Jahr 2004 mit Handcomputern und Elektronik. Derzeit liegt sein Fokus auf interdisziplinären Anwendungen von Informationstechnologie.
(map)