Kommentar: Big Data vor der Marktdurchdringung – oder auch nicht

Vor ein paar Jahren sagte man noch, dass Big Data wie Sex-Gespräche unter Teenagern sei: Alle sprechen darüber, viele wollen es erleben, doch niemand weiß wie es geht. Diese Punkte haben sich zunehmend geändert.

1

20.05.2015, 10:21 Uhr

Lesezeit: 12 Min.

Developer

Von

Daniel Schulz

Vor ein paar Jahren sagte man noch, dass Big Data wie Sex-Gespräche unter Teenagern sei: Alle sprechen darüber, viele wollen es erleben, doch niemand weiß wie es geht. Diese Punkte haben sich zunehmend geändert.

In einer kürzlich erschienenen Studie von Gartner zum Zustand von Big Data wurde festgestellt, dass Hadoop selbst unter forschungsnahen Großunternehmen in zwei Jahren in lediglich jedem zweiten vertreten sein werde. Konkret gaben die Hälfte dieser Unternehmen an, weder bestehende Hadoop-Systeme zu haben noch derartige Pläne für die kommenden zwei Jahre zu verfolgen. War Big Data am Ende lediglich ein Hype ohne Substanz, dreht sich derzeit der Wind oder ist es ein nachhaltiger Trend in einer Krise?

Zuerst einmal denke ich nicht, dass es lediglich viel Wirbel um nichts war, obgleich sicherlich an dieser Studie durchaus Wahres dran ist. Allerdings erzielen Unternehmen wie Google, Yahoo, Facebook und Twitter nach wie vor große Vorteile aus Big Data und haben viel Geld sowie Arbeit in ein offenes Hadoop investiert.

Nicht nur Talsohle der Ernüchterung

Ob Big Data weiterhin relevant sein wird, entscheidet sich in den kommenden Jahren. Bei Betrachtung des Gartner-eigenen Hype Cycle stellt man fest, dass sich Big Data in Phase 3 befindet. Wir haben technologische Durchstiche und -brüche gesehen (Phase 1), viele Success Stories und Bekenntnisse zu Hadoop und Big Data vernommen (Phase 2) und befinden uns derzeit in der mittleren dritten Phase.

Hier betritt traditionell die Mehrheit der Anwender das Neuland und erlebt die gesamte Klaviatur der Gefühle von sehr positiv bis sehr negativ. Die Mehrheit der Anwender ist naturgemäß nur erprobte, robuste Produkte gewohnt und arbeitet jetzt mit disruptiven Techniken wie Hadoop, Cassandra oder Spark, die von der grünen Wiese gestartet wurden und noch nicht sehr anwenderfreundlich sind – dafür allerdings den Markt neu ordnen und neue Möglichkeiten eröffnen.

Die jetzt zutage tretenden technischen Herausforderungen haben die Innovatoren und Early Adopter aus den vorherigen beiden Phasen noch toleriert. Die Mehrheit der Anwender verzeiht das allerdings nicht so leicht. Da diese gleichzeitig deutlich in der Überzahl sind, treten nun den Success Stories erstmals Anwender entgegen, die eine andere Meinung vertreten. Daher ist die dritte Phase auch die "Talsohle der Ernüchterung". Aus dem Einklang der Lobgesänge wird eine Dissonanz gegensätzlicher Meinungen.

Vergleicht man Big Data mit einer eine Beziehung, wäre das Kennenlernen Phase 1, die stabile Beziehung Phase 2 und das Zusammenziehen Phase 3. Darauf offenbaren sich ganz neue Seiten, die sich vormals lange kaschieren ließen. An einer solchen Probe kann eine Beziehung im Grunde nur scheitern oder sie wird wieder besser. Und an diesem Punkt ist Big Data zurzeit. Im Anschluss könnten die Erholung (Phase 4) und anschließend der langsame Aufstieg auf ein produktives Plateau (Phase 5) folgen.

Die Erfolgsgeschichte

Typische Szenarien, Hadoop einzusetzen, kommen aus dem Internet, wie die Auswertung von Logs, User-Bewegungen über Webseiten sowie Vorschlagsysteme für Produkte und Dienstleistungen. Zudem bei großen Unternehmen das Vorbeugen von Betrug, das Finden neuer Nischen in Märkten, Einblicke in das operative Geschäft sowie Forschung und Entwicklung vor allem zur Optimierung der Organisation. Aufgrund der steigenden Datenmengen benötigen im Speziellen Nachrichtendienste Big-Data-Systeeme zur Sondierung der Lage.

Hadoop wird gerne eingesetzt, wo Datenberge besonders groß und wichtig sind, wo Gewinnmargen knapp sind, Potenzial ist dort, wo Ressourcen zu schonen sind und wo Wachstum sehr wichtig ist. Schließlich geht es häufig in der Wissenschaft um neue Erkenntnisse und in der Wirtschaft um Geld. Für ersteres wurde Hadoop im Speziellen entwickelt und wird seiner Rolle durchaus gerecht. Der zweite Bereich ist durch unsere menschliche Natur "höher, schneller, weiter" vorbestimmt. So sind die Treiber hinter Hadoop meiner Erfahrung nach oftmals Kollegen aus der Wissenschaft oder Innovatoren, die alten Herausforderungen mit neuen Werkzeugen begegnen wollen. Teilweise auch gegen den Widerstand von "Tonerheads", wie sie Steve Jobs nannte. Diesem Modell zufolge denken sie nicht über das eigentliche Ziel nach, sondern folgen einem alten mit einfachereren Mitteln erdachten Weg. Doch selbst in der Gartner-Studie gaben viele Unternehmen an, Hadoop sei ein Overkill für ihre Daten.

Hadoop kann außerdem die Implementierung beziehungsweise das Weiterentwickeln eigener Grid-Computing-Frameworks ersparen. Da Hadoop eine große Community hat und die gewohnte Apache-Qualität liefert, ist der Einsatz eigener Entwicklungen anstelle von Hadoop unter wirtschaftlichen Gesichtspunkten immer schwieriger zu begründen. Die Komplexität dabei ist hoch und das Finden der Fehler in einem verteilten System oftmals schwierig. Mit Hadoop wurde heutigen und kommenden Anwendern viel Arbeit und Qualitätssicherung abgenommen, wenn ihre Herausforderungen in einer Shared-Nothing-Architektur lösbar sind.

3 V des Big Data

Unternehmen wie Hortonworks, Cloudera, DataStax und Databricks wetten derzeit auf das Fortbestehen des Trends Big Data. Und auch deren Investoren wollen Gewinne erwirtschaften. In dieselbe Richtung arbeiten die großen Unternehmensberatungen und Wirtschaftsprüfungsgesellschaften. Sie wollen die wachsende Nachfrage befriedigen können. Kunden nehmen das auch zunehmend an. Vor allem wo Datenschutz und diverse Arten von Sicherheitslücken eine große Rolle spielen, bietet Hadoop den Vorteil, die eigenen Daten nicht nur im Unternehmen halten zu können, sondern diese auch sehr gut absichern zu können.

Man sagt: "Wenn das einzige Werkzeug ein Hammer ist, sehen alle Probleme aus wie Nägel." So ist auch Hadoop kein Allheilmittel und nur für bestimmte Herausforderungen die geeignete Lösung. Diese sollten mindestens eine der folgenden Bedingungen erfüllen:

Volume – sehr große Datenberge,
Variety – komplexe Daten, die nicht in das relationale Schema passen, und
Velocity – sich schnell bewegende Daten (Ströme oder häufige Änderungen der Daten).

Teilweise wird immer noch Hadoop mit einer Datenbank verglichen. Bereits vor zehn Jahren lösten die MapReduce- und GFS-Paper von Google einen heftigen Diskurs aus, da die Leser annahmen, ein neues Datenbankparadigma vor sich zu haben.

In Wirklichkeit sind MapReduce und damit Hadoop erfunden worden, um komplexere Daten, vor allem Webseiten-Inhalte und Logs, maschinell "verstehen" zu können. Es gibt viele Versuche, Datenbanken auf Hadoop zu bringen. Diese leiden oftmals unter genau den Nachteilen, die in den Diskursen als suboptimal genannt worden sind. So arbeitet Hortonworks, ein großer Hadoop-Distributor, hart an der Optimierung von Hive, um Data Warehouses auf Hadoop abbilden zu können.

Wie das Internet vor fünfzehn Jahren

Um die Jahrtausendwende herum war das Internet in aller Munde wie derzeit Big Data: Jeder noch so kleine Betrieb musste anscheinend darin vertreten sein. So bauten sich tatsächlich viele KMUs eine Webseite, ohne die viel beschworenen Vorteile zu erhalten. Rückwirkend würden viele Kleinbetriebe wohl auf eine Homepage oder später eine Facebook-Seite verzichtet haben unter Berücksichtigung des heutigen geringen Mehrwerts. Und auch nicht jeder Bäcker, Friseur und Kleinhändler benötigt eine Big-Data-Lösung. Viele nutzen nicht einmal Datenanalyse auf kleinen Daten. Da scheint der Sprung direkt zu Big Data doch sehr zweifelhaft.

Doch im Gegensatz zum Internet ist Big Data nicht wirklich neu. Datenanalyse gibt es schon seit Hunderten Jahren und ist in Computer-gestützter Form vor allem bekannt seit den späten 1970ern durch Sabermetrics – die Optimierung von Spielereinsätzen und Spielzügen im Baseball. Hadoop entstand aus der Herausforderung, mit größeren, komplexeren und schnelleren Daten umgehen zu können. Gewissermaßen braucht man ein "Small Data"-Problem, bevor man über Big Data nachdenkt.

Big Data könnte es ergehen, wie dem Forschungsbereich der Künstlichen Intelligenz. Dieser wurde sogar bereits mehrfach über den grünen Klee gelobt und wieder fallen gelassen, da er den Erwartungen nicht gerecht werden konnte. Am Ende arbeiten Forscher und Innovatoren seit Langem damit im Hintergrund auch entgegen der mehrfachen öffentlichen Enttäuschung weiter daran und verbessern ihre Position am Markt.

Es gibt aus heutiger Sicht keinen Grund anzunehmen, dass Big Data für jedermann interessante Lösungen bieten känne. Hierin ist es sogar deutlich begrenzter als das Internet vor fünfzehn Jahren. Doch eine Nische könnte sich Hadoop unter Forschern und Firmen sichern – jeweils unter der Maßgabe, dass die Daten zu den Herausforderungen passen. Big-Data-Lösungen sind oftmals hochgradig spezialisiert und nicht für einen Breitenmarkt vorgesehen. So arbeiten Big-Data-Datenbanken oftmals ohne ACID-Konformität (Atomicity, Consistency, Isolation und Durability), sondern nach dem CAP-Theorem (Consistency, Availability und Partition Tolerance) lediglich auf zeilengenauen Transaktionen anstatt system- oder tabellenweiten Transaktionen und teilweise nur in der ersten Normalform, statt mindestens der dritten – also komplett denormalisiert ohne Joins. Für "klassische" Datenbanken ist das das kleine Einmaleins.

Schon gesetzt

Vor allem wir, in der westlichen und ersten Welt, sollten das Thema Big Data würdigen. Denn wie Hans-Jörg Bullinger als Präsident der Fraunhofer Gesellschaft 2006 sagte: "Wir können nur so viel teurer sein wie wir besser sind." Die meisten Firmen nutzen Big Data, um mehr über ihre Kunden und Prozesse zu erfahren. Daneben existieren noch Forschung und Entwicklung, Betrugsvorbeugung sowie diverse Anwendungsszenarien am Rande.

In manchen Simulationsprojekten könnten komplexere mathematische Modelle die Simulationen stark begrenzen. Hier können die Anwender wählen zwischen einer Remodellierung und einer Big-Data-Plattform. Auch wenn Letztere nicht für Simulationen im engeren Sinne erfunden wurde, bietet sie sich doch dafür an. Ein Kommilitone aus dem Bereich Machine Learning entgegnete mir einmal auf meinen Vorwurf, er schieße mit Kanonen auf Spatzen: Das sei irrelevant, solange er die Spatzen treffe. Und er hatte damit genauso recht wie die Anwender, die Simulationen auf Hadoop bringen.

In anderen Fällen wie der Wettervorhersage, der Verbesserung von Motoren, Flugzeugen, Autos, Saatgut und dem Verstehen des Kunden spielt Big Data nach wie vor eine große Rolle. Häufig sind es alte Herausforderungen, die unter dem Trendbegriff Big Data in neuem Licht erscheinen.

Hadoop hat ähnliche Herausforderungen, wie das Elektroauto: Es ist ein Henne-Ei-Problem von Angebot und Nachfrage. Ohne elektrische Zapfsäulen, der geringen Reichweite und den hohen Anschaffungs-/Batteriekosten werden sich nur wenige Kunden auf das Wagnis einlassen. Die großen bremsenden Faktoren für Hadoop sind laut Gartner nach wie vor fehlende Talente und der unscharfe Nutzen. Letzterer richtet sich sehr nach der Branche. Zudem spielt Hadoop performancetechnisch in der Liga der Supercomputer. Eine akkurate Messgröße ist also nicht der Marktanteil am gesamten IT-Markt sondern eher der Anteil im Markt der Hochleistungscomputer.

Fazit

Zwei prädestinierte Anwendungskreise für Hadoop sind derzeit Machine Learning im weiteren Sinne und der Bereich Computer-Simulation. Am Ende entscheidet wie immer der Markt, wie es mit disruptiven Techniken à la Hadoop weitergeht. Einige Kunden haben sich bereits daran gewöhnt, sehr große und komplexe Daten auswerten zu können. Da die Büchse der Pandora jetzt geöffnet ist, müssen sich andere Wettbewerber daran messen lassen oder sie werden vom Markt verschwinden.

Hadoop hat seine Nische gefunden. Diese hat es so erfolgreich besetzt, dass die Datenplattform jetzt auch andere Herausforderungen lösen können soll: beispielsweise als Ersatz des DataWarehouse, für die Verarbeitung von Streams, als Archiv für Backups sowie als konsolidierter transaktionaler und dispositiver Originaldatenspeicher (Active Archive).

Hadoop befindet sich derzeit nach Gartners Hype Cycle in der kritischen, dritten Phase: Ab hier entscheidet sich, ob es wieder bergauf oder weiter bergab geht – ob sich also die Beziehung verbessert oder daran zerbricht. Ich persönlich gehe davon aus, dass es ein Trend ist, der ähnlich der Künstlichen Intelligenz im Hintergrund in einer Nische weiterhin existieren wird.

Daniel Schulz
ist Senior Solution Architect bei Capgemini. Er arbeitet seit vier Jahren im Big-Data-Bereich mit besonderem Fokus auf der Automotive-Branche. Er interessiert sich seit seiner Schulzeit für Statistik, seit dem Studium auch für Machine Learning und deren Einsatz in der Datenanalyse. Sein besonderes Interesse gilt Markovmodellen und der Performanceoptimierung von Software und Datenbanken. (ane)