Structured Streaming mit Apache Spark

Daten in Echtzeit werden von Anwendungen aus Industrie und Wissenschaft benötigt. Für deren Aufbereitung ist das Apache-Projekt Spark prädestiniert.

Artikel verschenken
vorlesen Druckansicht
Structured Streaming mit Apache Spark
Lesezeit: 17 Min.
Von
  • Jens Albrecht
  • Marc Fiedler
Inhaltsverzeichnis

Als Data Streaming bezeichnet man die fortlaufende Verarbeitung eines kontinuierlich erzeugten Stroms von Nachrichten, Ereignissen, Transaktionen oder ganz allgemein Daten. Im Gegensatz zur Batch-Verarbeitung, bei der Daten im Quellsystem über längere Zeit gesammelt und dann als Stapel (Batch) verarbeitet werden, steht beim Streaming die zeitnahe Verarbeitung im Vordergrund. Es geht also um Realtime- oder besser: Near-Realtime-Anwendungen.

Mehr Infos

iX-TRACT

  • Viele Anwendungen der Industrie 4.0 setzen auf eine Datenverarbeitung in Echtzeit.
  • In der Version 2.3 haben die Entwickler des Apache-Projekts die Streaming-Funktionen von Spark stark ausgebaut.
  • Das Risiko von Datenstaus oder Datenverlusten macht den Betrieb einer stabilen Streaming-Anwendung trotz guter Werkzeuge zu keinem leichten Unterfangen.

Die Verarbeitungslatenz – die Zeit von der Erfassung der Daten bis zu deren Verarbeitung und Weiterleitung – liegt bei Streaming-Systemen im Sekunden- und Millisekundenbereich.

Während bei der Batch-Verarbeitung die Daten zunächst gesammelt werden, werden sie beim Streaming umgehend verarbeitet.

Typische Anwendungsfälle in der Industrie finden sich insbesondere bei der Steuerung und Überwachung zeitkritischer Systeme und Prozesse:

Das war die Leseprobe unseres heise-Plus-Artikels "Structured Streaming mit Apache Spark". Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.