Open Source für Big Data

Data Science – die Auswertung immer größerer Datenmengen – erfordert spezielle Software. Unter dem Apache-Dach finden sich zahlreiche Big-Data-Projekte.

In Pocket speichern vorlesen Druckansicht 6 Kommentare lesen
Open Source für Big Data
Lesezeit: 1 Min.
Von
  • Dr. Oliver Diedrich

Zu den großen Herausforderungen, vor denen Unternehmen heute stehen, gehört die Auswertung des Datenbergs, den die Digitalisierung von immer mehr Lebensbereichen produziert. Ob Webshop oder Internet of Things, ob Netzwerk-Traffic oder Interaktionen in sozialen Netzen: Die Auswertung der anfallenden Datenmassen, häufig in (Fast-)Echtzeit, erfordert spezielle Software – Excel ist mit Data Science überfordert.

Rund um Apache Hadoop, einer Software zur verteilten Speicherung und Auswertung von Daten, ist ein Ökosystem aus Open-Source-Software zur Big-Data-Analyse entstanden. Die zahlreichen Apache-Projekte von Kafka bis Spark, von Flink bis Storm, sind auch die Grundlage der meisten kommerziellen Big-Data-Angebote und Cloud-Dienste in diesem Bereich.

Allerdings: Die Vielzahl der Projekte kann einen verzweifeln lassen. Entwickler und Data Scientists stehen daher vor der Frage, wie sie eine auf den eigenen Anwendungsfall optimierte Software-Zusammenstellung finden – die Unterschiede zwischen den verschiedenen Projekten sind manchmal subtil.

Zur Orientierung haben die Big-Data-Spezialisten Stephanie Fischer und Christian Winkler daher eine Landkarte entworfen und die zahlreichen Apache-Projekte in verschiedenen Ländern auf fünf Big-Data-Kontinenten lokalisiert: Dateneingang, Processing, Reporting, Datenspeicherung und Organisation des Workflows. Diese Landkarte und detaillierte Beschreibungen der Software finden Sie in einem Artikel aus der aktuellen iX 6/2017:

  • Big Data: Apache-Projekte zur Analyse großer Datenmengen, iX 6/2017.

(odi)