Apache Arrow: Neues Top-Level-Projekt der Apache Software Foundation

Apache Arrow wird das Potenzial bescheinigt, ähnliche Bedeutung wie die Big-Data-Projekte Hadoop, Spark und Kafka erlangen zu können. Denn es könnte zum Standard für spaltenorientierte In-Memory-Datenverarbeitung werden.

18.02.2016, 12:52 Uhr

Lesezeit: 2 Min.

Developer

Von

Alexander Neumann

Die Apache Software Foundation hat Apache Arrow zum Top-Level-Projekt der Open-Source-Organisation erhoben. Arrow wird als hochperformante Big-Data-Technik für spaltenorientierte In-Memory-Datenverarbeitung beziehungsweise für gleichermaßen durchgeführten Datenaustausch ins Spiel gebracht. Es nutzt dafür unter anderem Code von Apache Drill, einem weiteren Open-Source-Framework zur Datenanalyse, das beim Aufbau verteilt arbeitender Anwendungen zur interaktiven Analyse großer Datenmengen dient und von Googles Dremel-System inspiriert ist.

Arrow erreicht laut der Apache Software Foundation bei analytischen Workloads Performanceverbesserungen um mehr als das Hundertfache. Die Beschleunigung erfolgt offenbar über das Ermöglichen sogenannter Multi-System-Workloads, indem Arrow sämtlichen Overhead bei der Kommunikation zwischen den Systemen beseitigt. Das greift vor dem Hintergrund, dass bei vielen Analysen offenbar 70 bis 80 Prozent der CPU-Zyklen für das Serialisieren und Deserialisieren der Daten aufgewendet werden. Arrow will hier helfen, indem es die Verteilung der Daten ohne Serialisierung, Deserialisierung oder Speicherkopien vornimmt. Hierbei nutzt die Technik Datenparallelität über Vektorisierung und SIMD-Instruktionen (Single Input Multiple Data).

Komplexe Datenbestände geht die Technik mit dynamischen Datenbankschemata zusätzlich zu gewöhnlicher relationaler Datenverarbeitung an. Arrow kann demnach mit JSON-formatierten (JavaScript Object Notation) Daten umgehen.. Außerdem gibt es Implementierungen für Programmiersprachen wie Java, C, C++ und Python, was schon früh für eine gewisse Interoperabilität sorgt.

Bei Arrow (rechts) erfolgt die Datenverarbeitung über dasselbe Speicherformat, bislang (links) hatte jedes System sein eigenes internes Format.

(Bild: arrow.apache.org)

Rückendeckung erhält das Projekt von Entwicklern anderer bei Apache gelisteten Big-Data-Projekte wie Calcite, Cassandra, Drill, Hadoop, HBase, Impala, Kudu, Parquet, Phoenix, Spark und Storm, aber auch bei anderen Open-Source-Projekten wie Pandas und Ibis. (ane)