Hadoop: Apache Impala 4.0 mit erweitertem Multithreading

Das neue Release der analytischen Datenbank sieht einige Änderungen bei Authentifizierung und Autorisierung vor, darunter die Integration mit Apache Knox.

In Pocket speichern vorlesen Druckansicht

(Bild: chana/Shutterstock.com)

Lesezeit: 2 Min.
Von
  • Matthias Parbel

Die Apache Software Foundation (ASF) hat ein neues Major Release der auf Hadoop zugeschnittenen Query Engine Impala mit zahlreichen Bugfixes, aber auch Verbesserungen und neuen Funktionen vorgelegt. Apache Impala verwendet die gleichen Metadaten sowie die gleiche SQL-Syntax wie Apache Hive und stellt Anwenderinnen und Anwendern mit der neuen Version 4.0 nun erweiterte Optionen beim Multithreading zur Verfügung. Darüber hinaus bringt das Update einige grundlegende Änderungen bei Authentifizierung und Autorisierung mit – beispielsweise den Abschied von Sentry zugunsten von Ranger.

Für analytische Abfragen von Daten, die in HDFS (Hadoop Distributed File System), Kudu oder auch in der Cloud gespeichert sind, bietet Impala ein unterschiedliches Maß an Parallelität, das sich über die Option MT_DOP für all jene Vorgänge festlegen lässt, die von einer Multithread-Ausführung profitieren können. Bisher war diese Option allerdings auf Abfragen beschränkt, die lediglich Scans und Aggregate umfassen. Ab Version 4.0 steht MT_DOP nun für alle Abfragen zur Verfügung.

Nachdem der ursprüngliche Impala-Entwickler Cloudera bereits im Zuge seiner Fusion mit Hortonworks angekündigt hatte, für Zwecke der Autorisierung und des Auditierens das eigene Sentry-Projekt zugunsten des von Hortonworks beigesteuerten Apache Ranger auslaufen zu lassen, vollzieht nun Impala 4.0 den letzten Schritt: Der Support für Sentry fällt vollständig weg. Obwohl Ranger zum damaligen Zeitpunkt noch nicht kompatibel mit Impala war, gaben der größere Funktionsumfang sowie die strategisch vielversprechendere Integration mit Hadoop-Komponenten den Ausschlag.

Ranger ist künftig nicht nur das Standardtool für Autorisierung, die etwa beim DSGVO-konformen Maskieren personenbezogener Daten von Bedeutung ist, sondern trägt auch zur Integration von Apache Knox bei. Als Gateway stellt Knox durch Kapselung von Kerberos einen einzelnen zentralen Authentifizierungs- und Zugriffspunkt für Hadoop-Services im Cluster bereit. Das zustandslose Reverse-Proxy-Framework kann einerseits REST/HTTP-Aufrufe abfangen und andererseits Anforderungen an die REST-APIs von Hadoop weiterleiten.

Darüber hinaus erfüllt Impala 4.0 die Compliance-Anforderungen von FIPS (Federal Information Processing Standard Publication) und versteht sich auf die Security Assertion Markup Language (SAML), die als XML-Framework den Austausch von Authentifizierungs- und Autorisierungsinformationen regelt.

Ein vollständiger Überblick sämtlicher Neuerungen und Verbesserungen in Apache Impala 4.0 findet sich in den Release Notes sowie im Changelog.

(map)