Hive 0.13 markiert Abschluss der Stinger Initiative

13 Monate lang haben über 145 Entwickler aus 44 Unternehmen daran gearbeitet, die Data Warehouse Software zu beschleunigen. Mit der Freigabe von Hive 0.13 sieht man alle anfänglich gesetzten Ziele erfüllt.

In Pocket speichern vorlesen Druckansicht
Lesezeit: 2 Min.
Von
  • Julia Schmidt

Nachdem die Entwickler 1080 Tickets geschlossen haben, steht Hive 0.13 zum Download bereit. Das Projekt ergänzt das Hadoop-Framework um Mechanismen zum Strukturieren und Abfragen von Daten in einer SQL-ähnlichen Sprache (HiveQL). Verbesserungen in der neuen Version sind vor allem in den Bereichen Geschwindigkeit, Skalierbarkeit und SQL zu finden.

Unter anderem verfügt Hive nun über einen Modus zum vektorisierten Ausführen von Abfragen, der gängige SQL-Operationen und -Funktionen wie Project, Filter, Between, String und Date unterstützt. Mit ihm sollen sich Berechnungen auf der CPU um das Fünf- bis Zehnfache beschleunigen lassen. Darüber hinaus haben die Entwickler unter anderem Partition Pruning, also das Einschränken der zu durchsuchenden Datenvolumen durch Ausblenden nicht relevanter Partitionen, für die Datentypen String und Date sowie schnellere Abfrageplanung ergänzt. Außerdem kommt Hive on Tez in der Ankündigung zur Sprache, das dafür sorgen soll, dass sich Anfragen auch auf dem Application Framework Tez ausführen lassen und die Performance durch Techniken wie Broadcast Joins oder dynamisch partitionierte Hash Joins verbessern.

Das auf dem SQL-Standard aufsetzende Autorisierungs-Feature ermöglicht es Nutzern von Hive 0.13, SQL-konforme Autorisierungsrichtlinien festzulegen. Außerdem ergänzten die Entwickler Support für grant und revoke für Instanzen, Befehle wie show roles, user privileges und active privileges und überarbeiteten die Authorization API. In puncto Skalierbarkeit sind nun beispielsweise kleinere Hash-Tabellen für besser skalierbare MapJoins in Hive enthalten.

Um auf Grundlage von Kostenberechnungen Abfragen planen zu können, führen die Entwickler mit dem Release eine Kardinalitätsabschätzung auf Operator-Ebene ein. Kommenden Veröffentlichungen sollen diese dann in Aktion zeigen. Weitere Neuerungen lassen sich den Release Notes entnehmen und umfassen etwa ein neues Wiki und ein Framework für parallele Tests.

Mit der Veröffentlichung von Hive 0.13 ist die im Februar letzten Jahres gestartete Stinger Initiative abgeschlossen. Ihr Ziel war es, Hive deutlich schneller zu machen und somit große Datenmengen besser verarbeiten zu können. Letztlich haben der Ankündigung zufolge 145 Mitarbeiter aus 44 Unternehmen zum Gelingen der Initiative beigetragen und den Quellcode des Hive-Projekts im Verlauf dabei fast verdoppelt. (jul)