MapR stellt proprietäre Alternative zu Apache Kafka vor

Nicht zum ersten Mal greift der Hadoop-Distributor auf eine Eigenentwicklung, anstatt auf den ansonsten Open-Source-Konkurrenten zu setzen. Die proprietären Komponenten werden nun MapR-DB, MapR-FS und Streams laufen nun als Converged Data Platform.

09.12.2015, 10:30 Uhr

Lesezeit: 2 Min.

Developer

Von

Alexander Neumann

MapR Technologies, einer der wichtigsten Hadoop-Distributoren, hat mit Streams eine proprietäre Alternative zu Apache Kafka vorgestellt. Wie die Open-Source-Technik ist MapR Streams ein verteiltes, skalierbares und fehlertolerantes System zum Transport von Daten, das auf einem Publish-Subscribe-Modell aufbaut.

Dabei soll die neue Technik von der Performance her mit vergleichbaren Ergebnissen aufwarten wie Kafka. Benchmarks hierzu werden offenbar bereitgestellt, wenn Streams voraussichtlich zu Beginn des nächsten Jahres generell verfügbar sein wird. Derzeit ist die Technik allein im Rahmen eines Early-Access-Programms zu testen.

Nicht nur Open Source

Unterschiede zu Kafka gibt es darin, dass Streams neben Hadoop keinen zweiten Server-Cluster benötigen soll. Und es ist wohl auch zukünftig nicht geplant, die neue Technik unter eine Open-Source-Lizenz zu stellen. Eine solche Entscheidung ist nicht ungewöhnlich für MapR, denn das Unternehmen hat im Gegensatz zu den größten Konkurrenten Cloudera und Hortonworks schon früh zentrale Komponenten seiner Distribution mit proprietären Alternativen besetzt, so zum Beispiel die Datenbank MapR-DB und das Filesystem MapR-FS.

Datenbank, Filesystem und und die neue Streaming-Plattform werden künftig im Verbund als sogenannte Converged Data Platform vertrieben, die die sonstigen Open-Source-Werkzeuge der MapR-Distribution ergänzen. Die konvergente Datenplattform soll Datenbanken, Datenverarbeitung sowie Analysefunktionen zusammenbringen, um datengetriebene Anwendungen zu beschleunigen.

Möglichkeiten im Detail

Mit Streams ist es offenbar möglich, skalierbare, kontinuierliche Streams mit hohem Durchsatz über sehr viele Standorte hinweg zu erstellen. Des Weiteren ist vom Zusammenführen von Analysen, Transaktionen und der Streamverarbeitung die Rede, um Datenduplizierung, Latenzzeiten und die Anzahl an Cluster zu reduzieren und Open-Source-Projekte wie Apache Spark Streaming, Apache Storm, Apache Flink oder Apache Apex einzusetzen. Hierfür wird die API von Apache Kafka unterstützt.

Des Weiteren lassen sich wohl mit MapR Streams verlässliche Ereignisse übermitteln, inklusive automatischem Failover und konsistenter Auftragsfolge. Und es gibt Möglichkeiten, eine standortübergreifende Replikation zwecks Erstellung umfassender Echtzeit-Anwendungen sicherzustellen.

Die MapR Converged Data Platform soll als Bestandteil der kostenlosen Community Edition von MapRs Distribution erhältlich sein, aber auch in der kostenpflichtigen Enterprise-Ausgabe mit Service Level Agrrements (SLA) für Hochverfügbarkeit, Datenschutz und Disaster Recovery. (ane)