Hadoop-Distribution: MapR 5.0 im Zeichen von Echtzeitanalysen

Die angekündigte Distribution synchronisiert automatisch Speicher, Datenbanken und Suchindizes, um komplexe Echtzeit-Anwendungen zu ermöglichen. Zudem verfügt sie über neue Auditing-Funktionen und unterstützt Apache Drill und Hadoop 2.7.

In Pocket speichern vorlesen Druckansicht
Hadoop-Distribution: MapR 5.0 im Zeichen von Echtzeitanalysen
Lesezeit: 2 Min.
Von
  • Alexander Neumann

MapR Technologies will auf dem heute beginnenden HadoopSummit in San Jose die Version 5.0 der eigenen Hadoop-Distribution vorstellen. Die MapR-Distribution basiert auf dem aktuellen Hadoop 2.7 und bindet wie vergleichbare Anbieter darauf abgestimmte Big-Data-Techniken ein.

Das neue Release habe ganz im Zeichen der Veränderungen innerhalb des Hadoop-Ökosystems gestanden, nach denen sich das Big-Data-Framework weg von einer Plattform zur Verarbeitung von Batch-Prozessen hin zu einer Technik für Echtzeitanalysen bewegt habe, berichtet Fabian Wilckens, EMEA Solution Architect bei MapR, im Gespräch mit heise Developer. Hadoop wird deswegen zunehmend zur Entscheidungsplattform, die gleichzeitig Live-Daten verarbeitet und Echtzeitanalysen bereitstellt.

In dem Kontext verfügt nun die MapR-Datenbank über die Fähigkeit der Tabellenreplikation, um Daten in Echtzeit zu synchronisieren und für externe Rechenmaschinen verfügbar zu machen. Als Erste wird dabei die auf Lucene basierende Suchplattform Elasticsearch unterstützt, um synchronisierte Volltext-Suchindizes automatisch zu ermöglichen. Weitere wie Spark Streaming und Apache Storm werden hier wohl folgen, die Nachfrage bei den Kunden nach Elasticsearch war aber am größten, erläutert Wilckens.

Außerdem sind neue Funktionen in Enterprise-Bereichen wie Sicherheits-Auditing und Autorisierungen hinzugekommen, bei deren Ausarbeitung offenbar auch deutsche Kunden mitgeholfen haben. Hier geht es unter anderem um ein Auditing für den Datenzugriff via Logfiles im JSON-Format für das Reporting, aber auch um schnelle Analysen mit Drill.

Das Apache-Projekt hilft bei der Analyse sowie beim Einsatz von Batch-Prozessen und ihrer Pipelines mit schnellen und umfangreichen Berechnungen. Im Kontext des neuen Releases soll mit Drill ein sicherer Zugang zu Daten auf Feldebene innerhalb von Dateien gewährt werden, um sicherzustellen, dass sich ausschließlich autorisierte Daten analysieren lassen. Datenanalysten können zudem Berechtigungen erhalten, Datensets mit anderen zu teilen.

Ebenfalls neu sind die sogenannten Auto-Provisioning Templates, die als Quasi-Installer beim Aufsetzen und Bereitstellen von Hadoop-Clustern helfen sollen.

Die neue Version ist voraussichtlich ab Juli 2015 verfügbar und soll die Basis für die drei Konfektionen Community Edition (kostenlos), Enterprise Edition und Enterprise Database Edition stellen. (ane)