Integration zwischen Apache Drill und Apache Spark in Arbeit

Die Integration der beiden Big-Data-Techniken soll die Entwicklung sogenannter Daten-Pipelines vereinfachen und Drills SQL-Abfragen mit den In-Memory-Analysen von Spark ermöglichen.

14.10.2014, 14:27 Uhr

Lesezeit: 1 Min.

Developer

Von

Alexander Neumann

MapR Technologies weist auf seine Bemühungen hin, das vom Hadoop-Distributor vor zwei Jahren in die Apache Software Foundation gebrachte Projekt Drill mit dem In-Memory-Processing-Framework Apache Spark zu verzahnen. Drill ist von Googles Analysewerkzeug Dremel inspiriert und hilft sowohl bei der Analyse als auch beim Einsatz von Batch-Prozessen und ihrer Pipelines mit schnellen und umfangreichen Berechnungen.

Die Software besteht aus einem Abfrage-Layer (mit Abfragesprache, Parser und Ausführungsplaner), einer Ausführungs-Engine für die Abfragepläne, geschachtelten Datenformaten zur Datenablage und einem skalierbaren Datenquellen-Layer. Der Schwerpunkt des Abfrage-Layers liegt auf der Drill-eigenen Abfragesprache DrQL. Außerdem wird Standard-SQL unterstützt, sodass Entwickler ihre SQL-Kenntnisse mit dem Werkzeug nutzen können. Der Datenquellen-Layer setzt auf Hadoop auf, es werden also dort die Daten abgelegt und Hadoops Dateisystem und HBase samt deren Datenformate genutzt. (ane)