Streaming-Plattform: Kafka 2.4 tritt mit neuer Replication Engine an
Das Update des Big-Data-Frameworks liefert einige neue Funktionen, darunter MirrorMaker 2.0 fĂĽr die rechenzentrumsĂĽbergreifende Multi-Cluster-Replikation.
Die Apache Software Foundation hat Version 2.4 von Apache Kafka offiziell freigegeben. Das Update des auf die Echtzeitverarbeitung großer Datenmengen ausgelegten Message Broker enthält nicht nur eine Reihe von Verbesserungen und mehr als 100 Fehlerbereinigungen, in das Release sind auch verschiedene neue Funktionen wie die Replication Engine MirrorMaker 2.0 eingeflossen.
Erweiterte Replikationsfunktionen
Aufbauend auf dem Framework von Kafka Connect soll MirrorMaker 2.0 einige der bisherigen Defizite in den Replikationsfunktionen von Kafka beheben. Ältere Versionen von MirrorMaker sowie andere für Kafka entwickelte Replication Tools sind unter anderen aufgrund fehlender Mechanismen für die Migration von Producern und Consumern zwischen gespiegelten Clustern nur eingeschränkt für Backup, Disaster Recovery und Fail-over-Szenarien geeignet. Über einen zu MirrorMaker kompatiblen Legacy-Modus hinaus bietet MirrorMaker 2.0 (MM2) nun wichtige Funktionen wie die automatische Synchronisierung von Topic-Konfigurationen zwischen Clustern, Unterstützung für Active/Active-Cluster-Paare und die rechenzentrumsübergreifende Multi-Cluster-Replikation, Aggregation sowie weitere komplexe Topologien. Details dazu finden sich im Kafka Improvement Proposal (KIP-382).
Einige weitere Verbesserungen in Kafka 2.4 konzentrieren sich auf die Arbeit mit Consumern. So wurde das Consumer Rebalance-Protokoll um die Funktion Incremental Cooperative Rebalancing erweitert. Im Unterschied zum bisherigen Ansatz versucht das inkrementelle Protokoll, die Partitionsmigration zwischen Mitgliedern einer Consumer-Gruppe zu minimieren, indem es ihnen erlaubt, ihre Partitionen während eines Balanceausgleichs beizubehalten. Dadurch sollen sich die Prozesse beschleunigen lassen, sodass vor allem Applikationen wie Kafka Streams profitieren.
Um in Multi-Datacenter-Installationen etwaige Kosten durch rechenzentrumsübergreifenden Netzwerkverkehr zu vermeiden, sind Consumer nicht mehr ausschließlich darauf beschränkt bei Leadern abzugreifen, sondern der Broker kann sie stattdessen an die nächstgelegene Follower Replica verweisen (KIP-492).
Mehr Details und einen vollständigen Überblick sämtlicher Neuerungen im Big-Data-Framework liefern der Blogbeitrag der Apache Software Foundation zur Ankündigung der neuen Version sowie die Projektseite von Apache Kafka, auf der das Release 2.4 auch zum Download parat liegt.
Siehe dazu auf heise Developer:
- Apache Kafka als Backend fĂĽr Webanwendungen?
- Effiziente Datenverarbeitung mit Kafka
- IoT-Datenverarbeitung im Big-Data-Umfeld mit Vert.x-MQTT, Kafka und Apache Spark (Video)
(map)