iX 5/2020
S. 132
Praxis
Echtzeitdatenverarbeitung

Realtime Data Mining mit Apache Kafka und Samza

Wackere Goldgräber

Peter Hoffmann, Paul Watzlaw

Apache Samza ist ein modernes Stream-Processing-Framework, mit dem sich komplexe Daten-Pipelines aufbauen lassen. Data-Mining-Tasks innerhalb der Verarbeitungskette fördern nebenbei manche Entdeckung zutage.

Mit dem Aufkommen verteilter Plattformen und dem damit verbundenen Bedarf an Echtzeitverarbeitung großer Datenmengen rollte in den letzten Jahren eine neue Welle von Anwendungen heran. Stream-Processing-Applikationen ermöglichen als Gegenentwurf zum traditionellen Batch-Processing das Verarbeiten von Daten, sobald diese entstehen, also nahezu in Echtzeit.

Eines der bekanntesten Stream-Processing-Systeme ist Kafka. Es wurde ursprünglich von LinkedIn entwickelt und ist seit 2011 als Apache-Projekt öffentlich verfügbar. LinkedIn nutzt Kafka intensiv zum Tracking der Benutzeraktivitäten, für den Nachrichtenaustausch und für das Sammeln von Kennzahlen. Im Oktober 2019 verzeichnete LinkedIn ein Aufkommen von sieben Billionen Kafka-Nachrichten täglich.

Alle heise-Magazine mit heise+ lesen

3,99 € / Woche

Ein Abo, alle Magazine: c't, iX, Mac & i, Make & c't Fotografie

  • Alle heise-Magazine im Browser und als PDF
  • Alle exklusiven heise+ Artikel frei zugänglich
  • heise online mit weniger Werbung lesen
  • Vorteilspreis für Magazin-Abonnenten
Jetzt unbegrenzt weiterlesen Vierwöchentliche Abrechnung.

Alle Ausgaben freischalten

2,60 € 1,49 € / Woche

Nach Testphase 2,60 € wtl.

  • Zugriff auf alle iX-Magazine
  • PDF-Ausgaben zum Herunterladen
  • Zugriff in der iX-App für unterwegs
  • Über 35% günstiger im Testzeitraum
Jetzt testen Nach Testphase jederzeit monatlich kündbar.

Ausgabe einmalig freischalten

8,90 € / Ausgabe

Diese Ausgabe lesen – ohne Abobindung

  • Sicher einkaufen im heise shop
  • Magazin direkt im Browser lesen
  • Dauerhaft als PDF behalten

Kommentieren