Big Data North America 2016: Big Data à la Apache

Seite 2: Wenig Security und Datenschutz, dafür viel Deployment

Inhaltsverzeichnis

Datenschutz war kein großes Thema bei der Konferenz. Das durchdrang sogar die Vorträge zu Big Data Security, in denen man hören konnte, dass es im Petabyte-großen Facebook-Storage praktisch keine Zugriffsberechtigungen gibt. Diese sind aber in HDFS/YARN grundsätzlich vorgesehen und dank Kerberos auch in einer Enterprise-fähigen Form einsetzbar. Schwerpunktmäßig beschäftigen sich Intel und Hortonworks mit dem Thema. Für viele Fälle lässt sich die Security dabei in YARN integrieren, allerdings mit eventuellen Schwierigkeiten bei der Erneuerung der Kerberos-Tickets. Diese zeigen sich laut Owen O'Malley von Hortonworks erst nach längeren Laufzeiten (mindestens 24 Stunden).

Erstaunlich ist, dass Datenschutz kaum im Vortragsprogramm berücksichtigt wurde. Nachdem zunehmend mehr Unternehmensdaten oder sogar Daten von Kunden (etwa bei Netflix) in Big-Data-Systemen liegen, sollten Datenschutz und -sicherheit eine größere Rolle spielen.

Gleiches gilt für die Datentransparenz. Eine verantwortungsvollere Variante des allgegenwärtigen Trackings stellte Nikhil Patel von Jahia vor. Bemerkenswert an seinem Vortrag war die Analyse, dass bei einer reinen Content-Website wie cnn.com bereits 66 Tracker beteiligt sind. Man fragt sich ernsthaft, ob die Website lediglich zum Datensammeln angelegt wurde ...

Es herrschte Uneinigkeit, ob nun ein Großteil der Bevölkerung kein Interesse zeigt, was mit ihren Daten geschieht, oder keine Chance hat zu verstehen, was passiert und wie man sich schützen kann. Das Interesse der Entwickler an der Lösung dieses Themas schien wenig ausgeprägt. Es bleibt zu hoffen, dass darauf zukünftig mehr Gewicht gelegt wird.

Wie an der großen Vortragsanzahl im Bereich "Self-Service" ersichtlich, werden vor allem Installation und Konfiguration von Big-Data-Anwendungen zunehmend zum Problem. Im Gegensatz dazu wird der Entwicklungsaufwand geringer, weil häufig schon nahezu passende Angebote existieren. Sie sind lediglich noch zu installieren und zu konfigurieren.

Sehr technisch, aber gut verdeutlichte das Ubuntu-Begründer Mark Shuttleworth: Er installierte während des Vortrags sowohl auf seinem Laptop, in der AWS-Cloud, als auch auf mitgebrachter Hardware (!) mittels Juju-System ein komplexes Big-Data-System mit fast identischen Befehlen.

Es existieren auch viele andere Ansätze zur Lösung dieser Problemkonstellation mit ihren zahlreichen Paketen und Abhängigkeiten. Eine bietet Apache Mesos, das weiteren Projekten als Basisinfrastruktur dient. So zeigten einige Vorträge ihre auf DC/OS beruhende Infrastruktur mit einem grafischen Paketmanager. Mit ihm ließen sich optisch gelungene, einzelne Big-Data-Komponenten installieren und in Betrieb nehmen. Für viele Pakete waren auch Konfigurationsoberflächen verfügbar, und eine Automatisierung kann alternativ über JSON-Dateien erfolgen.

Einige Referenten zeigten, wie sich Services, die zum Beispiel auf älteren Softwarekomponenten, JDKs et cetera beruhen, in Docker-Container migrieren lassen. Docker wird damit zu einer "Lingua franca" der Big-Data-Welt, auch wenn Juju auf das konkurrierende LXC setzt.

Nach Gründung der Open Data Platform initiative (ODPi) als Standardisierungsorganisation für Big Data im vergangenen Jahr gab es einige Differenzen mit der Apache Software Foundation. Für viele sah es danach aus, als wollte die ODPi der Apache Software Foundation Big-Data-Techniken wegnehmen. Eine Überraschung war es daher, dass die Initiative auf der Konferenz nicht nur als Sponsor, sondern sogar mit einer Keynote, Vorträgen und einer gemeinsam mit Apache durchgeführten Q&A-Session beteiligt war.

Unterm Strich ist die ODPi nun Gold-Sponsor der Apache Software Foundation. Ihr Fokus liegt auf der Standardisierung der Software, weswegen sie verstärkt den Austausch mit der Wirtschaft sucht. Apache treibt weiterhin primär die technische Weiterentwicklung der Software. Ob sich die Aufteilung langfristig bewährt oder es wieder zu Konflikten kommen wird, muss sich noch zeigen. In der Q&A-Session stellte der Apache-Repräsentant auf die Frage hin klar, was Apache tun könne, falls ODPi "zum Bösen werde": "Apache hat eine Menge Glaubwürdigkeit in der Community. Falls wir äußern würden, dass die ODPi 'das Böse' ist, wäre das das Ende der ODPi."

Nur am Rande der Konferenz kamen gesellschaftliche Aspekte zur Sprache, wie die Angst vor Big Data, die damit verbundene Transparenz der User und das allgegenwärtige Tracking. Selbst die in der Bevölkerung zunehmend divergierenden Kenntnisse und die daraus erwachsenden Wettbewerbsvor- beziehungsweise -nachteile waren nicht Bestandteil des Vortragsprogramms.

Nur weil etwas legal ist, ist es nicht automatisch moralisch vertretbar. Das Interesse der Konferenzteilnehmer an diesen Themen scheint nur gering zu sein, eine spontan organisierte "Bird of Feather"-Diskussion zog nur wenige Teilnehmer an. Apache und ODPi sehen sich selbst nicht in der Verantwortung für die Dinge, die mit ihrer Software gemacht werden, sondern in der Pflicht, die Software möglichst breit zur Verfügung zu stellen. Denn "every business is a data-driven business" – egal welcher Größe. Über gemeinsame Moralvorstellungen und Visionen der Anwendung wird nicht gesprochen.

Zur gesellschaftlichen Relevanz der Big-Data-Techniken könnte die Foundation mit thematisch breiter angelegten Vorträgen für mehr Diversität sorgen. Big Data hat gesamtgesellschaftliche Auswirkungen, deren Konsequenzen der alleinige Fokus auf die dahinter stehenden Techniken nicht gerecht wird.