Big Data: das Ende vom Hype und der Anfang vom Business

Seite 2: Drei Business Cases

Inhaltsverzeichnis

Ein internationaler IT-Dienstleister ermittelt weltweit für Betreiber von Mobilfunknetzen deren Netzqualität. Mit eigenentwickelter Hardware, Software und Messsystemen erhebt das Unternehmen pro Tag zwischen 50 und 100 Gigabyte Daten, die analysiert und aus denen Key-Performance-Indikatoren als Basis für die Netzoptimierungen abgeleitet werden. Für die Analyse führt der Dienstleister zeitbasierte Daten von verschiedenen Sensoren zusammen und spaltet sie in Sequenzen auf. Auf ihnen arbeiten dann Algorithmen, die die KPIs berechnen. Beispiele hierfür sind die Zeit zum Rufaufbau bei einer Sprachverbindung oder der Durchsatz einer Datenverbindung. Die KPIs werden mit Metadaten, etwa zur GPS-Position oder zu Radiomessdaten wie Empfangsstärke, angereichert und in Tabellenform abgelegt.

Die Analyseanforderungen wandeln sich jedoch ständig und schnell: Standen früher beispielsweise Analysen zu Sprachdiensten und Bandbreiten im Vordergrund, sind es heute Dienste wie Videostreaming oder soziale Netze. Das erfordert ein offenes System, das speziell auf verteilte Rechenprozesse und große Datenmengen ausgerichtet ist, um eine hohe Flexibilität und Skalierbarkeit zu erreichen.

Zur Umsetzung wurde ein Hadoop-Cluster in AWS gestartet, der die Rohdaten aus S3 einliest, die Algorithmen (realisiert mit MapReduce und Apache Spark) darauf anwendet und die berechneten KPIs dann wieder im S3 speichert. Hier ging es im Wesentlichen um Kostenkontrolle: Statt selbst die Hardware zu kaufen und zu betreiben, wird der Cluster in AWS provisioniert und die Berechnung gestartet. Nach dem Abschluss der Kalkulation wird der Cluster wieder gestoppt.

Dass das jetzt gerade in der Amazon-Cloud passiert, hatte im Wesentlichen den Hintergrund, dass sie bekannt und der Mechanismus zum Hochladen der Rohdaten in S3 schon etabliert war. Als Speicherformat wird Apache Parquet verwendet, da es besonders für die Ablage spaltenorientierter Daten geeignet ist. Es benutzt sehr große Blöcke (1 GByte), in denen es die Daten spaltenweise ablegt. Dadurch lässt sich beim Auslesen schnell auf einzelne Spalten zugreifen.

Nach der Berechnung wird der Cluster wieder gestoppt – so sind nur die effektiv genutzten Ressourcen zu bezahlen.

Die Visualisierung der KPIs erfolgt dann mit der Analysesoftware Tableau, die über die SQL-Abfrage-Engine Impala auf die berechneten KPIs zugreift. Hadoop erleichtert dem Dienstleister, weltweit neue Dienste oder Techniken, zum Beispiel VoLTE (Voice over LTE), schneller und einfacher und ohne hohe zusätzliche Lizenzinvestitionen in die Analysen zu integrieren. Denn mit der offenen Plattform lassen sich Rechenprozesse mit unterschiedlichen Softwaresystemen beliebig auf Serverkapazitäten weltweit verteilen und skalieren.

Für den Einsatz von Hadoop sprach die Offenheit. Das Vorgängersystem nutzte ein kommerzielles RDBMS, sodass man hier komplett vom Hersteller abhängig war, insbesondere in Bezug auf Lizenzkosten und -bedingungen. Hier konnte Hadoop dann dadurch punkten, dass es ein (fast) komplett quelloffenes System ist. Die Gefahr, von einem Hersteller abhängig zu werden, wurde damit als viel geringer wahrgenommen.

Architektur des Systems aus dem ersten Business Case

Ein Aufzughersteller rĂĽstet seine Anlagen mit Sensoren aus, die in Echtzeit ihre Daten an einen Cloud-Service senden. Dieses Projekt wurde auf Basis von Azure implementiert. Auch hier sprach wieder als wesentlicher Vorteil fĂĽr den Cloud-Ansatz, dass der Cloud-Provider die Infrastruktur zur VerfĂĽgung stellt.

Die Messdaten werden mit Protokollen der Service-Techniker abgeglichen, um mit Machine-Learning-Techniken Muster in Störungen und Ausfällen zu finden. Bei geplanten Wartungen errechnet das System, welche Teile präventiv auszutauschen sind, um Störungen und ungeplante Ausfallzeiten zu vermeiden. Der Mehrwert für die Kunden ist neben einer besseren Verfügbarkeit der Aufzüge eine Reduktion der Wartungsausgaben.

Die Technik zur "Data Ingestion", also zur Aufnahme der Daten in das System, entsprechen der des ersten Beispiels. Die "Prediction"-Seite wird dann über Machine-Learning-Verfahren umgesetzt – dazu gehören die Aufbereitung der Daten (per Apache Pig) und die Anwendung von Machine Learning-Algorithmen von Apache Mahout.

Ein Anbieter einer Gesundheits- und Fitness-App analysiert Fitness- und Bewegungsdaten von Anwendern auf dem Smartphone oder der Smartwatch. Er steht vor der Herausforderung, dass seine klassische, auf RDBMS basierende Data-Warehouse-Anwendung nicht mit dem Wachstum seiner Daten mithalten kann. Statt sie auszubauen, hat er sich entschieden, Teile der Funktionen des DWH in einem Hadoop-Cluster zu realisieren. Dieser speichert die Rohdaten und bereitet sie so auf, dass sie sich direkt im DWH weiterverarbeiten lassen. So kann das bestehende DWH-System weiter genutzt werden – eine teure Erweiterung oder Neuinstallation wurde vermieden. Daneben lassen sich neue Funktionen einfach auf dem Hadoop-Cluster implementieren.

Die Rohdaten bestehen aus einzelnen Events, die die App generiert. Sie kommen ĂĽber zwei Wege in das System: zum einem aus einem bestehenden Backend-System, dass Events ĂĽber RabbitMQ zur VerfĂĽgung stellt, zum anderen von einem anderen Dienstleister ĂĽber eine HTTP-Schnittstelle.

Im Hadoop-Cluster nimmt Flume die Events aus RabbitMQ beziehungsweise per HTTP-Endpunkt entgegen und schreibt sie im Original-Format (JSON) in HDFS. Die Weiterverarbeitung erfolgt dann per Hive, das SQL-Zugriffe auf JSON ermöglicht. Per Hive-ODBC-Zugriff kann das DWH dann auf die Daten zugreifen.

Neue Funktionen kommen zum einen mit neuen Apps oder Erweiterungen älterer Applikationen, hier lässt sich das System einfach an neue oder erweiterte Event-Typen anpassen. Zudem erlaubt es den Data Scientists auch, direkt mit den Rohdaten zu arbeiten, was im alten DWH nicht ging. Damit sind neue Analysen möglich, weil die komplette Datenbasis verfügbar ist. Das DWH hat immer nur den aktuellen Datenstand abgebildet – mit dem Hadoop-System ist die komplette Historie aller Events verfügbar.