Big Data: Apache Drill wird Top-Level-Projekt der Apache Software Foundation

Die Schema-freie SQL Query Engine für Hadoop und NoSQL-Datenbanken ist nun ein vollwertiges Projekt der Open-Source-Organisation. Zusätzlich ist eine neue Version von Apache Hadoop erschienen.

In Pocket speichern vorlesen Druckansicht
Apache Drill wird Top-Level-Projekt
Lesezeit: 2 Min.
Von
  • Alexander Neumann

Zwei Neuigkeiten aus dem Hadoop-Umfeld lassen diese Woche aufhorchen: Einerseits ist die Version 2.6 des maßgeblichen Big-Data-Projekts erschienen, andererseits ist Apache Drill zum Top-Level-Projekt der Apache Software Foundation aufgestiegen.

Apache Hadoop 2.6 ist das vierte Release des Big-Data-Frameworks, das dieses Jahr erschienen ist. Die Entwickler sprechen von über 900 geschlossenen Issues, die in den Bereichen Hadoop Common, HDFS, YARN und MapReduce verortet sind. Die vielleicht wichtigsten Änderungen stellen die Unterstützung für heterogene Speicherebenen im Hadoop File System und die lang laufenden Services in YARN dar. Außerdem ist bei YARN von sogenannten "rolling upgrades" die Rede, also der Möglichkeit, eine Cluster-Software und Cluster-Knoten zu aktualisieren, ohne dass der Cluster seine Arbeit einstellen müsste.

Drill ist eine Schema-freie SQL Query Engine für Hadoop und NoSQL-Datenbanken, die von Googles Analysewerkzeug Dremel inspiriert ist und sowohl bei der Analyse als auch beim Einsatz von Batch-Prozessen und ihrer Pipelines mit schnellen und umfangreichen Berechnungen hilft. Die Software besteht aus einem Abfrage-Layer (mit Abfragesprache, Parser und Ausführungsplaner), einer Ausführungs-Engine für die Abfragepläne, geschachtelten Datenformaten zur Datenablage und einem skalierbaren Datenquellen-Layer. Der Schwerpunkt des Abfrage-Layers liegt auf der Drill-eigenen Abfragesprache DrQL. Außerdem wird Standard-SQL unterstützt, sodass Entwickler ihre SQL-Kenntnisse mit dem Werkzeug nutzen können. Der Datenquellen-Layer setzt auf Hadoop auf, es werden also dort die Daten abgelegt und Hadoops Dateisystem und HBase samt deren Datenformate genutzt.

Die Ernennung zum Top-Level-Projekt der Open-Source-Organisation bedeutet, dass die hinter dem Softwareprojekt stehenden Entwickler bewiesen haben, Drill gemäß den Prinzipien und den Qualitätskriterien der Apache Software Foundation zu betreiben. (ane)