iX 3/2017
S. 116
Praxis
Big Data
Aufmacherbild

Einführung in Apache Spark und seine Python-API

Durchblick im Datendickicht

Das Big-Data-Framework Apache Spark bietet in Version 2.1 vom Dezember 2016 mehr Tempo und neue Funktionen, sodass immer mehr Hadoop-Komponenten durch Spark ersetzt und neue Anwendungsgebiete erschlossen werden. Zeit für eine ausführliche Analyse.

Daten über Daten – die Welt ist digital und produziert im Überfluss Daten, die verarbeitet und ausgewertet werden wollen. Wo relationale Datenbanken an ihre Grenzen stoßen oder unwirtschaftlich sind, müssen Big-Data-Frameworks wie Hadoop und Spark oder (verteilte) NoSQL-Datenbanken die Schwerarbeit übernehmen.

Diese Systeme basieren auf der Grundidee, dass wirklich große Datenmengen nur auf einem Cluster kostengünstiger Hardware zweckmäßig und wirtschaftlich ausgewertet werden können. Die Software muss einerseits die Ressourcen im Cluster effizient ausnutzen. Dazu gehört, die Daten nach dem Prinzip der Datenlokalität möglichst auf den Knoten zu verarbeiten, auf denen sie gespeichert sind, um teure Netzwerkkommunikation zu vermeiden. Andererseits muss ein solches Framework mit Fehlern der Hardware umgehen können, sodass der Ausfall eines Servers weder zu Datenverlust noch zum Abbruch eines laufenden Jobs führt.

Alle heise-Magazine mit heise+ lesen

3,99 € / Woche

Ein Abo, alle Magazine: c't, iX, Mac & i, Make & c't Fotografie

  • Alle heise-Magazine im Browser und als PDF
  • Alle exklusiven heise+ Artikel frei zugänglich
  • heise online mit weniger Werbung lesen
  • Vorteilspreis für Magazin-Abonnenten
Jetzt unbegrenzt weiterlesen Vierwöchentliche Abrechnung.

Alle Ausgaben freischalten

2,60 € 1,49 € / Woche

Nach Testphase 2,60 € wtl.

  • Zugriff auf alle iX-Magazine
  • PDF-Ausgaben zum Herunterladen
  • Zugriff in der iX-App für unterwegs
  • Über 35% günstiger im Testzeitraum
Jetzt testen Nach Testphase jederzeit monatlich kündbar.

Ausgabe einmalig freischalten

6,90 € / Ausgabe

Diese Ausgabe lesen – ohne Abobindung

  • Sicher einkaufen im heise shop
  • Magazin direkt im Browser lesen
  • Dauerhaft als PDF behalten