Streaming-Plattform: Kafka 2.4 tritt mit neuer Replication Engine an

Das Update des Big-Data-Frameworks liefert einige neue Funktionen, darunter MirrorMaker 2.0 für die rechenzentrumsübergreifende Multi-Cluster-Replikation.

In Pocket speichern vorlesen Druckansicht 33 Kommentare lesen
Big-Data-Framework Apache Kafka 2.0 erschienen
Lesezeit: 2 Min.
Von
  • Matthias Parbel

Die Apache Software Foundation hat Version 2.4 von Apache Kafka offiziell freigegeben. Das Update des auf die Echtzeitverarbeitung großer Datenmengen ausgelegten Message Broker enthält nicht nur eine Reihe von Verbesserungen und mehr als 100 Fehlerbereinigungen, in das Release sind auch verschiedene neue Funktionen wie die Replication Engine MirrorMaker 2.0 eingeflossen.

Aufbauend auf dem Framework von Kafka Connect soll MirrorMaker 2.0 einige der bisherigen Defizite in den Replikationsfunktionen von Kafka beheben. Ältere Versionen von MirrorMaker sowie andere für Kafka entwickelte Replication Tools sind unter anderen aufgrund fehlender Mechanismen für die Migration von Producern und Consumern zwischen gespiegelten Clustern nur eingeschränkt für Backup, Disaster Recovery und Fail-over-Szenarien geeignet. Über einen zu MirrorMaker kompatiblen Legacy-Modus hinaus bietet MirrorMaker 2.0 (MM2) nun wichtige Funktionen wie die automatische Synchronisierung von Topic-Konfigurationen zwischen Clustern, Unterstützung für Active/Active-Cluster-Paare und die rechenzentrumsübergreifende Multi-Cluster-Replikation, Aggregation sowie weitere komplexe Topologien. Details dazu finden sich im Kafka Improvement Proposal (KIP-382).

Einige weitere Verbesserungen in Kafka 2.4 konzentrieren sich auf die Arbeit mit Consumern. So wurde das Consumer Rebalance-Protokoll um die Funktion Incremental Cooperative Rebalancing erweitert. Im Unterschied zum bisherigen Ansatz versucht das inkrementelle Protokoll, die Partitionsmigration zwischen Mitgliedern einer Consumer-Gruppe zu minimieren, indem es ihnen erlaubt, ihre Partitionen während eines Balanceausgleichs beizubehalten. Dadurch sollen sich die Prozesse beschleunigen lassen, sodass vor allem Applikationen wie Kafka Streams profitieren.

Um in Multi-Datacenter-Installationen etwaige Kosten durch rechenzentrumsübergreifenden Netzwerkverkehr zu vermeiden, sind Consumer nicht mehr ausschließlich darauf beschränkt bei Leadern abzugreifen, sondern der Broker kann sie stattdessen an die nächstgelegene Follower Replica verweisen (KIP-492).

Mehr Details und einen vollständigen Überblick sämtlicher Neuerungen im Big-Data-Framework liefern der Blogbeitrag der Apache Software Foundation zur Ankündigung der neuen Version sowie die Projektseite von Apache Kafka, auf der das Release 2.4 auch zum Download parat liegt.

Siehe dazu auf heise Developer:

(map)