Big Data: Hadoop 2.8 mit Fokus auf Sicherheit und Cloud

So ganz neu ist Hadoop 2.8 nicht mehr – die Apache Software Foundation ist jedoch erst jetzt dazu gekommen, das neue Release des Big-Data-Frameworks anzukündigen.

In Pocket speichern vorlesen Druckansicht
Big Data: Hadoop 2.8 mit Fokus auf Sicherheit und Cloud
Lesezeit: 2 Min.
Von
  • Alexander Neumann

Die Apache Software Foundation hat die Version 2.8 des Big-Data-Frameworks Hadoop angekündigt, die allerdings schon geraume Zeit zum Download bereitsteht. Das erste Update seit zwei Jahren ist auf die Themen Sicherheit und Cloud ausgerichtet. In den zwei Jahren seit dem Erscheinen von Hadoop 2.7 sind offenbar fast 3000 Commits zusammengekommen.

Den Bereich Security tangieren etliche Bugfixes, aber auch Schutzmechanismen in der Benutzeroberfläche gegen Cross-Frame Scripting (XFS) und eine weiteres Sicherheitsfeature in Form einer REST-API gegen CSRF (Cross Site Request Forgery). Diese Sicherheitsmaßnahmen kommen nicht von ungefähr; denn vor kurzem waren offenbar mehr als fünf PByte an Daten in Hadoop-Instanzen im Web sichtbar.

Nun gibt es außerdem Unterstützung für Microsofts Azure Data Lake als Quelle und Ziel. Davon können jene profitieren, die Hadoop in der Azure-Cloud einsetzen. Der Azure Data Lake Service wurde explizit für Hadoop Analytics Workloads entwickelt. Der S3A-Client für die Arbeit mit in AWS S3 gespeicherten Daten verhält sich wohl skalierbarer, leistungsfähiger und sicherer. Die Leistungsverbesserungen sind anhand von auf Apache Hive und Apache Spark basierenden Benchmarks sichtbar. In den Hive TCP-DS Benchmarks verhält sich Hadoop demnach derzeit schneller bei spaltenorientiert vorgehaltenen Daten in S3 als der proprietäre EMR-Connector (Elastic MapReduce) von Amazon.

Die Integration mit anderen Applikationen wurde mit einem separaten Jar für den hdfs-Client überarbeitet. Downstream-Projekte, die auf HDFS (Hadoop Distributed File System) zugreifen, können nun das hadoop-hdfs-Client-Modul nutzen, um die Anzahl der transitiven Classpath-Abhängigkeiten zu reduzieren.

Derweil arbeiten die Entwickler bereits an Hadoop 3.x, das derzeit Alpha-Staus hat. (ane)