Hadoop: Speicherformat Apache Parquet wird Top-Level-Projekt
Das spaltenorientierte Speicherformat für das Hadoop-Ökosystem soll unabhängig von Programmiersprachen und Abfrage-Engines funktionieren. Zu seinen größten Nutzern zählen Twitter und Netflix.
- Julia Schmidt
Die Apache Software Foundation hat Parquet zu einem Top-Level-Projekt gemacht. Es handelt sich dabei um ein Speicherformat für Projekte aus dem Umfeld des Hadoop-Frameworks für verteilt arbeitende Software, das auch mit verschachtelten Daten umgehen kann. Durch seinen Einsatz soll sich unter anderem die Latenz beim Datenzugriff senken lassen. Zudem arbeitet das Format spaltenorientiert, wodurch es effiziente Kompressions- und Codierungsverfahren unterstützt, die beim Reduzieren des benötigten Speichers helfen und sich wohl auch spaltenweise festlegen lassen.
Parquet soll unabhängig von Programmiersprachen und Verarbeitungsframeworks wie MapReduce und Apache Spark funktionieren, weshalb es sich für viele unterschiedliche Projekte aus dem Hadoop-Ökosystem eignen soll. Zudem lässt es sich wohl mit unterschiedlichen Datenmodellen (z. B. Apache Avro, Apache Thrift und Protocol Buffer) und Anfrage-Engines (u. a. Apache Hive, Drift, Tajo, Pig oder Facebooks Presto) nutzen.
Details zu dem in Parquet verwendeten Algorithmus sind im GitHub-Repository des Projekts zu finden. Zum Codieren der Parquet-Metadaten kommt Apache Thrift zum Einsatz. Bisher findet das Format unter anderem bei Cloudera, Twitter und Netflix Verwendung. (jul)