Big Data: Hortonworks Data Platform 2.6 soll deutlich schnellere Abfragen liefern

Hive LLAP verbindet persistente, verteilte Query-Server mit Caching. Außerdem hat HDP 2.6 Apache Spark 2.1 mit neuen ML-Algorithmen an Bord. Hortonworks geht zudem "Cloud First" und veröffentlicht das System zuerst auf Azure und AWS.

05.04.2017, 08:00 Uhr

Lesezeit: 2 Min.

Developer

Von

Rainald Menge-Sonnentag

Im Rahmen des in München stattfindenden DataWorks Summit beziehungswiese Hadoop Summit hat Hortonworks eine neue Version der Hortonworks Data Platform vorgestellt. HDP 2.6 konzentriert sich vor allem auf Performance-Optimierung, nachdem die im August 2015 erschienene Version 2.5 primär Security-Aspekte adressiert hatte. So soll Hive 2 deutlich schnellere Abfragen dank LLAP liefern. Das Akronym steht für "Live Long and Process" und ist offensichtlich an den vulkanischen Gruß "Live long and prosper" aus Star Trek angelehnt.

Schnellere Queries und inkrementelle Updates

Technisch funktioniert LLAP durch eine Kombination von persistenten Abfrageservern und einem zwischen allen Nutzern geteilten In-Memory-Cache. Die Ressourcenverwaltung erfolgt innerhalb eines YARN-Clusters (Yet Another Resource Negotiator). Im Zusammenspiel mit Apache Ranger können Administratoren feingranulare Zugriffsrechte festlegen. Da LLAP eine Weiterentwicklung der Hive-Architektur ist, ist es vollständig kompatibel zu den vorhandenen Hive-Tools und der auf SQL aufbauenden Abfragesprache HiveQL.

LLAP soll Abfragen durch einen gemeinsamen Cache und Abfrage-Server deutlich beschleunigen.

(Bild: Hortonworks)

Mit der HDP 2.6 ermöglicht zudem inkrementelle Updates, da das System ACID- beziehungsweise AKID-konform ist (Atomarität, Konsistenz, Isolation, Dauerhaftigkeit). Davon sollen vor allem Änderungen durch Micro-Batches und Datenströme profitieren, die viele kleine Änderungen mit sich bringen. Schließlich kann Hive nun wohl alle 99 Abfragen des TPC Benchmark DS "mit lediglich trivialen Änderungen" verarbeiten.

Apache Spark und Zeppelin

Hortonworks hat zudem die Anfang Januar veröffentlichte Apache-Spark-Version 2.1 integriert, die sich unter anderem durch neue Algorithmen für Machine Learning und verbesserte Funktionen zur Verarbeitung von Datenströmen wie Event-time Watermarks auszeichnet. Die zu Spark passende webbasierte Oberfläche zur Datenanalyse Apache Zeppelin ist in der im Februar erschienenen Version 0.7 enthalten, die vor allem Erweiterungen für den Mehrplatzeinsatz an Bord hat.

Weitere Details lassen sich dem Blogbeitrag zum Release von HDP 2.6 entnehmen. Gemäß dem Motto "Cloud First" hat Hortonworks die Hadoop-Distribution zuerst auf AWS (Amazon Web Services) und Microsoft Azure ausgerollt. Die Software ist zudem erstmals für IBM Power System verfügbar. Die Open-Source-Plattform steht auf der Download-Seite zum Herunterladen bereit. (rme)