Structured Streaming mit Apache Spark

Daten in Echtzeit werden von Anwendungen aus Industrie und Wissenschaft benötigt. Für deren Aufbereitung ist das Apache-Projekt Spark prädestiniert.

Artikel verschenken

22.11.2018, 14:23 Uhr

Lesezeit: 17 Min.

iX Magazin

Von

Jens Albrecht
Marc Fiedler

Structured Streaming mit Apache Spark
- Streaming-Systeme
- Verteiltes Streamen
- Spark Streaming
- Datenstrukturen bzw. APIs
- Microbatches und Continuous Processing
- Streaming im Internet der Dinge
- Windowing und Aggregation
- Watermarking – der Umgang mit Out-of-Order-Daten
- Streaming Joins
- Datenströme verbinden
- Fazit

Artikel in iX 9/2018 lesen

Als Data Streaming bezeichnet man die fortlaufende Verarbeitung eines kontinuierlich erzeugten Stroms von Nachrichten, Ereignissen, Transaktionen oder ganz allgemein Daten. Im Gegensatz zur Batch-Verarbeitung, bei der Daten im Quellsystem über längere Zeit gesammelt und dann als Stapel (Batch) verarbeitet werden, steht beim Streaming die zeitnahe Verarbeitung im Vordergrund. Es geht also um Realtime- oder besser: Near-Realtime-Anwendungen.

iX-TRACT

Viele Anwendungen der Industrie 4.0 setzen auf eine Datenverarbeitung in Echtzeit.

In der Version 2.3 haben die Entwickler des Apache-Projekts die Streaming-Funktionen von Spark stark ausgebaut.

Das Risiko von Datenstaus oder Datenverlusten macht den Betrieb einer stabilen Streaming-Anwendung trotz guter Werkzeuge zu keinem leichten Unterfangen.

Die Verarbeitungslatenz – die Zeit von der Erfassung der Daten bis zu deren Verarbeitung und Weiterleitung – liegt bei Streaming-Systemen im Sekunden- und Millisekundenbereich.

Batch vs. Stream — Während bei der Batch-Verarbeitung die Daten zunächst gesammelt werden, werden sie beim Streaming umgehend verarbeitet.

Typische Anwendungsfälle in der Industrie finden sich insbesondere bei der Steuerung und Überwachung zeitkritischer Systeme und Prozesse:

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Famos fensterln: So behalten Sie im macOS-Fensterdschungel den Überblick

Der Mac bietet zahlreiche Bordmittel wie Mission Control, Spaces, Vollbild und Stage Manager, um Fenster zu verwalten. Wir zeigen, wie man sie sinnvoll nutzt.

EUDI-Wallet: Der regulatorische Fahrplan zur digitalen Identität

Deutschland hat einen Referentenentwurf für das Digitale-Identitäten-Gesetz (DIdG) vorgelegt. Der Text belässt wichtige Punkte ungeklärt.

Nikon ZR im Test: Günstige 6K-Cinema-Kamera mit klaren Kompromissen

Die Nikon ZR kombiniert das Z-System mit der RED-Farbwissenschaft. Unser Test zeigt eine starke Bildqualität, aber auch Schwächen bei Ergonomie und Ausstattung.

Baustelle eines Neubaugebiets in Barsinghausen bei Hannover, im Vordergrund ein kleiner Bagger und eine Rolle Glasfaserkabel.

Bug im FritzOS: Anbieterwechsel bei Glasfaser kann am Router scheitern

Wenn nach der Umstellung auf einen neuen Anbieter plötzlich der Internetanschluss tot bleibt, kann das am Router liegen. Das gilt es zu beachten.

(XXL-)Speicher für Balkonkraftwerke im Test

Balkonkraftwerke mit Speicher versprechen einen automatischen Ausgleich des Stromverbrauchs. Vier Systeme müssen beweisen, was davon im Alltag übrig bleibt.

KI als Gesundheits-Coach: Fitbit (Google) Health Coach im Test

Google hat die Fitbit-App runderneuert. Zentraler Baustein ist der „Health Coach“, der per Gemini mit Usern ihre Daten durchgeht. Wir testen die Public Preview