Open Source für Big Data
Data Science – die Auswertung immer größerer Datenmengen – erfordert spezielle Software. Unter dem Apache-Dach finden sich zahlreiche Big-Data-Projekte.
Zu den großen Herausforderungen, vor denen Unternehmen heute stehen, gehört die Auswertung des Datenbergs, den die Digitalisierung von immer mehr Lebensbereichen produziert. Ob Webshop oder Internet of Things, ob Netzwerk-Traffic oder Interaktionen in sozialen Netzen: Die Auswertung der anfallenden Datenmassen, häufig in (Fast-)Echtzeit, erfordert spezielle Software – Excel ist mit Data Science überfordert.
Rund um Apache Hadoop, einer Software zur verteilten Speicherung und Auswertung von Daten, ist ein Ökosystem aus Open-Source-Software zur Big-Data-Analyse entstanden. Die zahlreichen Apache-Projekte von Kafka bis Spark, von Flink bis Storm, sind auch die Grundlage der meisten kommerziellen Big-Data-Angebote und Cloud-Dienste in diesem Bereich.
Allerdings: Die Vielzahl der Projekte kann einen verzweifeln lassen. Entwickler und Data Scientists stehen daher vor der Frage, wie sie eine auf den eigenen Anwendungsfall optimierte Software-Zusammenstellung finden – die Unterschiede zwischen den verschiedenen Projekten sind manchmal subtil.
Zur Orientierung haben die Big-Data-Spezialisten Stephanie Fischer und Christian Winkler daher eine Landkarte entworfen und die zahlreichen Apache-Projekte in verschiedenen Ländern auf fünf Big-Data-Kontinenten lokalisiert: Dateneingang, Processing, Reporting, Datenspeicherung und Organisation des Workflows. Diese Landkarte und detaillierte Beschreibungen der Software finden Sie in einem Artikel aus der aktuellen iX 6/2017:
- Big Data: Apache-Projekte zur Analyse großer Datenmengen, iX 6/2017.
(odi)