Data Science: Hortonworks Data Steward Studio für die globale Datenverwaltung

Um Sicherheit, Governance und operatives Datenmanagement übergreifend für lokale Cluster wie auch Data Lakes in der Cloud anbieten zu können, erweitert Hortonworks die Dataplane-Plattform um neue Service-Module.

In Pocket speichern vorlesen Druckansicht
Big Data: Hortonworks Data Platform 2.6 soll deutlich schnellere Abfragen liefern
Lesezeit: 2 Min.
Von
  • Matthias Parbel

Im Rahmen des dieses Jahr in Berlin stattfindenden Dataworks Summit hat Hortonworks seine im vergangenen Herbst gestartete Dataplane-Services-Plattform um neue Servicemodule ergänzt. Neben dem Data Lifecycle Manager (DLM), der dem Verwalten des Lebenszyklus der Daten inklusive Replikation, Backup und Restore, Disaster Recovery sowie automatischer Zuweisung der passenden Qualitätsstufen (Tiers) dient, steht ab sofort das Data Steward Studio (DSS) zur Verfügung. Anwender sind damit in der Lage, Sicherheit und Governance ihrer kompletten Datenbestände in allen Data Lakes im Rechenzentrum vor Ort wie auch in der Cloud sicherzustellen – insbesondere auch vor dem Hintergrund der anstehenden Neuregelungen im Datenschutz (DSGVO).

Global Data Management: Die Dataplane Services setzen auf der Hadoop-Basis (HDF/HDP) auf.

(Bild: Hortonworks)

Auf Basis des für die Dataplane Services definierten Servicekatalogs und der Rollen wie Data Scientist, Data Architect oder Data Engineer stellt das Data Steward Studio geeignete Dienste parat, die einen effizienten und vertrauensvollen Umgang mit den vorhandenen Daten erlauben. So können Anwender die Daten nach Kriterien wie Verwendungszweck oder Schutzanforderungen klassifizieren und gruppieren sowie die Suche und Analyse anhand von Zugriffsrechten steuern. Kuratierte Charakteristika wie die Herkunft der Daten und ihre Vertraulichkeit kombiniert mit Policies zum Schutz von Daten und Metadaten (Security, Datensicherung, Anonymisierung etc.) schaffen die Voraussetzungen für einen datenschutzkonformen Umgang mit den Informationen.

Die Elemente des DataSteward Studio.

(Bild: Hortonworks)

Im Sinne eines Global Data Management-Konzeptes bereitet Hortonworks zusätzliche Module als Erweiterung der Dataplane Services-Plattform vor – darunter Cloudbreak und das Data Analytics Studio. Mit Hilfe von Cloudbreak lassen sich künftig Hadoop-Cluster in der Cloud bereitstellen oder auch einzelne Workloads für spezifische Umgebungen zuordnen. Ebenso soll damit der unkomplizierte Wechsel von einem Cloud-Provider zu einem anderen möglich werden. Mit dem Data Analytics Studio will Hortonworks eine übergreifende Anbindung an Apache Hive einrichten, die performante Abfragen einschließlich Optimierung und Nachverfolgung bieten soll. Neben Hortonworks nutzen Partner wie IBM die Dataplane-Services-Plattform. Die IBM Data Science Experience (DSX) steht als Collaboration- und Workspace für Data Scientists zur Verfügung, die beispielsweise Machine-Learning-Modelle entwerfen, trainieren und einsetzen wollen.

Das Data Steward Studio steht ab sofort als Technical Preview zur Verfügung. Zusammen mit einem Update des Data Lifecycle Manager soll die GA-Version noch im Verlauf des zweiten Quartals fertig werden. Weitere Informationen zu den Dataplane Service, DSS und DLM finden sich auf der Produkt-Website von Hortonworks. (map)