iX 5/2022
S. 146
Praxis
Tools und Tipps

Umfangreiche Daten in Python verwalten

Große Pandas

Prof. Dr. Stefanie Scholz, Dr. Christian Winkler

Wer häufig mit Python und pandas arbeitet, kennt das Problem: Irgendwann reicht der Speicher nicht mehr. vaex schafft Abhilfe und ist kompatibel zu pandas.

Die Python-Bibliothek pandas mit ihren zahlreichen Funktionen zum Umgang mit umfangreichen Datensätzen hat sich als Standard in der Data Science etabliert. Wer sich an die teilweise etwas spröde Bibliothek gewöhnt hat, kann sehr effizient damit arbeiten und viele Standardprobleme in der Datenvorbereitung und -analyse elegant lösen. pandas arbeitet dabei sehr schnell, weil es die Daten in DataFrames im Arbeitsspeicher hält.

Bei sehr großen Datensätzen passen die Daten aber irgendwann nicht mehr in den Speicher. Oft ist es einen Versuch wert, sich auf relevante Teile der Daten zu beschränken – aber das ist nicht immer möglich. Besonders bei der Datenaggregation kommt es oft zu Problemen. Perfekt wäre eine Bibliothek, die kompatibel mit pandas ist, aber bei Bedarf mit Daten im nichtflüchtigen Speicher arbeitet. Genau das leistet vaex.

Kommentieren