Techtiefen: Effiziente Datenverarbeitung

Die Episode widmet sich der effizienten Datenverarbeitung, konkret am Beispiel des spaltenorientierten Speicherformats Apache Parquet und des In-Memory-Speicherformats Apache Arrow.

In Pocket speichern vorlesen Druckansicht
Lesezeit: 2 Min.
Von
  • Nico Kreiling

Wie lassen sich Daten schnell erfassen, speichern und verabeiten? Apache Parquet und Apache Arrow sind zwei Open-Source-Projekte zu Speicherformaten. Mit dem spaltenorientierten Speicherformat Apache Parquet können Nutzer tabellarische Daten mit einer guten Schreib- und Leseperformance für Batch-Prozesse erfassen. Apache Arrow hingegen ist ein In-Memory-Speicherformat für Daten, das die Brücke zwischen zahlreichen Programmiersprachen schlägt.

Nico Kreiling, der selbst Data Scientist ist, spricht in dieser Techtiefen-Folge mit Uwe Korn über Datenverarbeitung – dabei geht es weniger um inhaltliche Aspekte als um die Geschwindigkeit dabei. Uwe erzählt, wie man Daten möglichst schnell und effizient verarbeiten kann. Apache Arrow – erstaunlich viele Leute haben "schon mal davon gehört", ohne aber zu wissen, was dahinter steht. Es definiert die Repräsentation von Data Frames zu Tabellen im Speicher, die man von einer Anwendung an eine andere weitergeben kann. Dadurch sollen Projekte Daten leichter austauschen können, ohne sie umständlich hin und her transformieren zu müssen.

Durch Arrow wird es möglich, in C/C++-Code, Java, Rust oder einer der anderen implementierten Sprachen auf die gleichen Daten zuzugreifen. Darüber hinaus erklärt Uwe, wie diese "Sprachbrücke" funktioniert und wie Entwickler und Data Scientists Arrow künftig nicht nur zur Aufbewahrung sondern auch zur Verarbeitung von Daten einsetzen können. Parquet erfasst beim Schreiben die Datentypen und zahlreiche Metriken, um mit eingebauter Komprimierung die Dateigröße deutlich zu komprimieren. Der Host und sein Podcast-Gast sprechen im Verlauf der Folge auch über andere Datenformate wie Avro, CSV, ORC, Hdf5 und Feather.

Zum Abschluss befragt Nico Uwe zu seinem Engagement im Open-Source-Umfeld:

  • Wie hat er den Einstieg gefunden?
  • Wie lässt sich Open Source mit Beruf und Privatleben vereinbaren?
  • Und worauf sollte man achten, wenn man selbst ein Open Source Projekt unterstützen möchte?

Uwe ist Data Engineer und engagiert sich seit mehreren Jahren in verschiedenen Open-Source-Projekten, insbesondere Apache Parquet und Apache Arrow.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externer Inhalt geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.