Realtime Data Mining mit Apache Kafka und Samza

Mit Apache Samza lassen sich komplexe Daten-Pipelines aufbauen. Data-Mining-Tasks innerhalb der Verarbeitungskette fördern nebenbei manche Entdeckung zutage.

Artikel verschenken

23.04.2020, 07:00 Uhr

Lesezeit: 20 Min.

iX Magazin

Von

Peter Hoffmann
Paul Watzlaw

Realtime Data Mining mit Apache Kafka und Samza
Data Mining: Wenn das Unbekannte lockt
Samza für Stream-Processing-Tasks
Das Wunder der Diskretisierung
Fazit

Artikel in iX 5/2020 lesen

Mit dem Aufkommen verteilter Plattformen und dem damit verbundenen Bedarf an Echtzeitverarbeitung großer Datenmengen rollte in den letzten Jahren eine neue Welle von Anwendungen heran. Stream-Processing-Applikationen ermöglichen als Gegenentwurf zum traditionellen Batch-Processing das Verarbeiten von Daten, sobald diese entstehen, also nahezu in Echtzeit.

Eines der bekanntesten Stream-Processing-Systeme ist Kafka. Es wurde ursprünglich von LinkedIn entwickelt und ist seit 2011 als Apache-Projekt öffentlich verfügbar. LinkedIn nutzt Kafka intensiv zum Tracking der Benutzeraktivitäten, für den Nachrichtenaustausch und für das Sammeln von Kennzahlen. Im Oktober 2019 verzeichnete LinkedIn ein Aufkommen von sieben Billionen Kafka-Nachrichten täglich.

Kafka speichert Nachrichten (Messages) in sogenannten Topics und liest sie dort wieder aus. Anwendungen, die Nachrichten bereitstellen, nennt man Producer. Bei Anwendungen, die Nachrichten aus einem Topic lesen, spricht man von Consumern. Der Producer-Consumer-Ansatz erinnert stark an klassische Message-Broker wie RabbitMQ. Im Unterschied zu einem Message-Broker speichert Kafka jedoch alle Nachrichten im eigenen Transaktions-Log, bei Bedarf auch zeitlich unbegrenzt. Auf diese Weise lassen sich revisionssichere Applikationen erstellen und auch nachträglich neue Consumer-Anwendungen hinzufügen, die das gesamte Transaktions-Log verarbeiten, um eine neue Sicht auf die Daten zu erstellen.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Windows on ARM: Zehn Notebooks mit Copilot+ und Snapdragon X im Vergleichstest

Die ersten Windows-Notebooks, die Microsofts KI-Vision hinsichtlich Copilot+ entsprechen, drücken in den Markt. Wir haben die Geräte ausführlich getestet.

Fritzbox 7690 im Test: AVMs schneller DSL-Router mit Wi-Fi 7

AVMs Fritzbox 7690 bietet schnelles Wi-Fi-7-WLAN und bringt das Internet per Telefonleitung ins Haus.

Fritzbox 5690 Pro im Test: AVMs erster Router mit DSL- und Glasfasermodem

Mit der Fritzbox 5690 Pro setzt AVM den Umstieg seiner Router auf Wi-Fi-7-WLAN fort. Im Test zeigt sich: Die Box hat Lücken, aber auch Wumms.

Rückgang von THG-Prämien: Betrügereien auf Kosten von E-Auto-Besitzern

Wer abgasfrei mit dem E-Auto fährt, profitiert von CO2-Ausgleichszahlungen der Mineralölkonzerne. Die Höhe der jährlich ausgeschütteten THG-Prämie fällt jedoch.

Sony Xperia 1 VI mit Zoomkamera im Test

In der sechsten Auflage passt Sony das Xperia 1 etwas an den Smartphone-Mainstream an. Dennoch liefert es vieles, was das Gerät vom restlichen High End abhebt.

Kabelloser Mähroboter Mammotion Luba 2 AWD im Test

Mit Allradantrieb und Abstandssensorik ist der Luba 2 für die Graserei auf unwegsamem, verwinkeltem Gelände getunt. Wir haben ihn genau unter die Lupe genommen.

nach oben

Alle Angebote

Newsletter heise-Bot Push Push-Nachrichten

${intro} ${title}