Hortonworks stellt Stinger Initiative vor

Apache Hive 100-mal schneller machen - so lautet das erklärte Ziel der Initiative, die bis zur Hadoop Summit im März erste Arbeitsproben vorstellen möchte. Pläne zu Verbesserungsmaßnahmen und ein neues Laufzeitframework liegen bereits vor.

In Pocket speichern vorlesen Druckansicht
Lesezeit: 1 Min.
Von
  • Julia Schmidt

Mit einem Vier-Punkte-Plan will die Stinger Initiative Apache Hive 100-mal schneller machen. Das verkündete Hortonworks Alan Gates in einem Blogeintrag. Nach Maßnahmen anderer Hadoop-Distributeure zum schnelleren Verarbeiten großer Datenmengen (zum Beispiel MapRs Drill), setzt Hortonworks also lieber auf bereits vorhandene Werkzeuge und den Input einer großen Community.

Hadoop ist ein in Java geschriebens Framework für verteilt arbeitende Anwendungen der Apache Foundation. Hive ergänzt das Projekt um die Abfragesprache HiveQL und Indizes.

In einem ersten Schritt soll Hive dem vorgelegten Plan zufolge besser an die Anfragen, die Nutzer an Hadoop stellen, angepasst werden. Dazu zählt die Einführung der Abfragebedingung WHERE und der Ausrichtung des Hive-Typensystems an standardkonformen SQL. Im zweiten Schritt sind Hives Pläne zur Anfrageausführung zu überarbeiten und Veränderungen in Hives Execution Engine durchzuführen, wovon sich die Initiative schon einmal große Gewinne erhofft.

Die letzten beiden Punkten sind in einem neuen spaltenbasierten Dateiformat (ORCFile) und dem ebenfalls neu vorgestellten Laufzeit-Framework Tez zu sehen. Tez soll durch MapReduce vorgegebene Einschränkungen reduzieren, indem unter anderem unnötige Tasks eliminiert werden.

Eine erste Vorschau der geplanten Änderungen soll rechtzeitig zur Hadoop Summit im März 2013 vorliegen. Mitarbeiter von Firmen wie SAP und Facebook nahmen sich bereits einiger Arbeitspunkte an – die Ergebnisse können im Issue-Tracker von Hive angesehen werden. (jul)