Cloudera: Neues Speichersystem und Sicherheitsebene für Hadoop

Im Rahmen einer Kundenveranstaltung in München sprach heise Developer mit Mike Olson, dem Mitbegründer von Cloudera über neue Big-Data-Projekte wie Kudu, Recordservice und Sentry sowie die Zukunft von Spark und Hadoop.

Mike Olson

(Bild: Cloudera)

08.10.2015, 17:47 Uhr

Lesezeit: 5 Min.

Developer

Von

Rainald Menge-Sonnentag

Cloudera: Neues Speichersystem und Sicherheitsebene für Hadoop

Kürzlich gab Cloudera, der Hersteller der verbreitetsten Hadoop-Distribution, offiziell das Beta-Release von Kudu bekannt. Dabei handelt es sich um ein Speichersystem, das HDFS und HBase ergänzen soll. Mike Olson, Mitbegründer und Chief Strategy Officer des Unternehmens, begründet auf dem Kundentag "Cloudera Sessions 2015" in der Münchner Allianz-Arena die dritte Option auf dem unteren Hadoop-Layer damit, dass HDFS und HBase für wahlfreie Abfragen wenig geeignet seien. Im Gespräch mit Heise Developer sagte er: "HDFS ist gut darin, große Dateien zu lesen und zu schreiben, HBase kann NoSQL-Workloads verarbeiten, aber keiner von beiden kann effizient mit SQL-ähnlichen Abfragen umgehen".

Olson weiß, wovon er spricht, denn er kommt ursprünglich aus der Welt der relationalen Datenbanken und war unter anderem an der Entwicklung von PostgreSQL beteiligt. Kudu will in die SQL-Lücke springen, indem es sowohl neue Daten schnell in das System einfügt also auch spaltenweise Suchen ermöglicht. Das Speichersystem ist auf große Datenströme in Echtzeit optimiert, wie sie beispielsweise durch Internet-of-Things-Anwendungen anfallen. Dazu unterstützt das nach einer flinken Antilopenart benannte Speichersystem typische Anwendungsfälle wie Zeitreihenanalyse oder Online-Reporting. Durch die Integration ins Hadoop-Ökosystem können Anwendungen wie Apache Spark oder Apache Solr direkt auf die Daten zugreifen.

Kudu wurde anfangs von Cloudera zusammen mit Intel entwickelt. Mit der Ankündigung vom 28. September wurde das System gleichzeitig unter die Apache Open-Source-Lizenz gestellt.

Der Wachmann mit der Linse

Die Sicherheit der Daten in Hadoop ist nach wie vor eine große Herausforderung. Als Google seinerzeit die Ursprünge von HDFS und MapReduce entwickelte, speicherte die Suchmaschine dort die Inhalte und Indizes von Websites. "Da diese Daten ohnehin öffentlich zugänglich waren, spielte deren Schutz keine wesentliche Rolle", so Olson. Ketzerisch könnte man für die Folgezeit sagen, dass es für Sicherheit kein V-Wort gab, das in das Big-Data-Paradigma passt: Volumen und andere Dinge stellten die Systeme vor genügend Herausforderungen. Somit gibt es heute statt eines einheitlichen Security-Konzepts zahlreiche Insellösungen für die Sicherheit auf Datei- und/oder Benutzer-Ebene.

Mit RecordService stellte Cloudera vergangene Woche eine Sicherheitsebene vor, die zwischen dem Datenspeicher auf HDFS, HBase – und künftig Kudu – und den Applikationen liegt. Eine Schlüsselrolle spielt dabei das Zugriffskontrollsystem Sentry. Dieser Wachtposten kennt unterschiedliche Rollen und Stufen für Benutzer und Daten. Administratoren geben den Zugriff auf bestimmte Daten nur einzelnen Benutzern oder Gruppen und stellen unkritische Inhalte frei zur Verfügung. Unterschiedliche Rechte zum Lesen oder Ändern verstehen sich von selbst.

Die Arbeitsweise von RecordService vergleicht Olson mit einer Linse: Wenn eine Anwendung wie Apache Spark auf die Speicherebene zugreift, entscheidet das System, ob der verbundene Nutzer überhaupt Zugriffsrechte auf die Daten besitzt. Ist das nicht der Fall, erhält Spark die Daten erst gar nicht. Von diesem Ansatz verspricht sich Olson eine einheitliche Lösung über das gesamte Hadoop-System. Installiert ein Unternehmen zusätzliche Anwendungen, müssen diese beim Zugriff stets am Sentry anfragen, welche Daten sie bekommen.

Der Funke ist übergesprungen

In jüngster Zeit gibt es viele Stimmen, die Hadoop als groß, aber langsam empfinden und dem Elefanten das Aussterben prophezeien. Darauf angesprochen antwortet Olson: "Seit wir Cloudera gegründet haben, hat es 10 Produkte gegeben, die Hadoop töten sollten. Keines davon hat es geschafft".

Ein Shooting-Star für Big Data ist Spark. Manche sehen in ihm einen neuen Hadoop-Killer, aber Cloudera setzt auf Integration der Systeme. Die One-Platform-Initiative will die Entwicklung von Apache Spark für Unternehmensanwendungen beschleunigen. Mehr als 200 Cloudera-Kunden setzten laut Firmenangabe Spark bereits ein.

Das Framework glänzt hinsichtlich der Performance, aber bei anderen Bereichen sieht Cloudera noch Nachholbedarf und nennt dazu die vier Kernthemen Sicherheit, Skalierbarkeit, Verwaltung und Streaming. Mike Olson ist davon überzeugt, dass Spark mittelfristig eine wichtige Rolle innerhalb Hadoops spielen werde, und seine Firma setze alles daran, es zu optimieren. "Wir investieren viel Zeit und Geld in Spark als Plattform. Schon jetzt gibt es bei Cloudera mehr Open-Source-Contributors zu Spark als in allen anderen Hadoop-Firmen zusammen."

Auch wenn er die Zukunft von Hadoop rosig sieht, glaubt er an eine Ablösung innerhalb des Systems: "Spark wird MapReduce ersetzen, aber das heißt nicht, dass das Ökosystem Hadoop tot ist." Um zu betonen, wie lebendig und unvorhersehbar Hadoop ist, fügt Olson hinzu: "Wer weiß, was in vier Jahren der neue Star sein wird, der Spark ablöst."

Was kommt nach dem Hype?

Cloudera: Neues Speichersystem und Sicherheits-Ebene für Hadoop

Und was muss mit Hadoop passieren, damit es lebendig bleibt? Mike Olson meint: "Wir müssen in Zukunft mehr über Lösungen statt Technologie reden". Ein Satz, der bereits häufig aus unterschiedlichen Firmen über diverse Technologien fiel – und einer, der stets das Ende der Hype-Phase markierte. In schlechten Fällen folgte die Bedeutungslosigkeit und in guten der konstruktive, produktive Einsatz. Quo vadis Hadoop? (rme)