Structured Streaming mit Apache Spark
Daten in Echtzeit werden von Anwendungen aus Industrie und Wissenschaft benötigt. Für deren Aufbereitung ist das Apache-Projekt Spark prädestiniert.
- Jens Albrecht
- Marc Fiedler
Als Data Streaming bezeichnet man die fortlaufende Verarbeitung eines kontinuierlich erzeugten Stroms von Nachrichten, Ereignissen, Transaktionen oder ganz allgemein Daten. Im Gegensatz zur Batch-Verarbeitung, bei der Daten im Quellsystem über längere Zeit gesammelt und dann als Stapel (Batch) verarbeitet werden, steht beim Streaming die zeitnahe Verarbeitung im Vordergrund. Es geht also um Realtime- oder besser: Near-Realtime-Anwendungen.
iX-TRACT
- Viele Anwendungen der Industrie 4.0 setzen auf eine Datenverarbeitung in Echtzeit.
- In der Version 2.3 haben die Entwickler des Apache-Projekts die Streaming-Funktionen von Spark stark ausgebaut.
- Das Risiko von Datenstaus oder Datenverlusten macht den Betrieb einer stabilen Streaming-Anwendung trotz guter Werkzeuge zu keinem leichten Unterfangen.
Die Verarbeitungslatenz – die Zeit von der Erfassung der Daten bis zu deren Verarbeitung und Weiterleitung – liegt bei Streaming-Systemen im Sekunden- und Millisekundenbereich.
Typische Anwendungsfälle in der Industrie finden sich insbesondere bei der Steuerung und Überwachung zeitkritischer Systeme und Prozesse:
Das war die Leseprobe unseres heise-Plus-Artikels "Structured Streaming mit Apache Spark". Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.