DataWorks Summit Europe 2019: Enterprise Data Cloud als Vision

Seite 2: Data at Rest – Data in Motion

Inhaltsverzeichnis

Die künftige Cloudera Data Platform kann nach Makhijas Angaben überall laufen und wird sich sowohl für ruhende Daten (data at rest) – mit Hadoop – als auch für bewegte Daten (data in motion) eignen. Letzteres ist vor allem für IoT und Edge Computing bedeutsam. Um das nötige IoT-Streaming realisieren zu können, stellt die CDP die Komponente Cloudera DataFlow (CDF) bereit. Sie ermöglicht Streaming mit Apache Kafka und Apache NiFi. Es gebe bereits kleine MiNiFi-Agenten für die Bereitstellung in Endgeräten in größeren Umgebungen. Die Agenten stellen die nötige Datenverarbeitungsintelligenz bereit, sodass nicht ständig große Datenmengen übers Netzwerk fließen müssen, sondern nur kleine Pakete – entweder die Deltas oder vorverarbeitete Ergebnisse.

Vikram Makhija, Vice President und General Manager Cloud bei Cloudera

(Bild: Cloudera)

Als KI-Prozessor am IoT-Edge kann sich Makhija unter anderem einen Raspberry Pi vorstellen. CDF unterstützt nach seinen Angaben zwei Verwendungszwecke von Streaming, nämlich Complex Event Processing (CEP) und einfaches Flow Management, sodass sich sowohl simple als auch komplexe Algorithmen und Modelle am Edge nutzen lassen. Die Roadmap sieht Verbesserungen in der Einbindung von Kafka und NiFi vor. Die CDP-Komponenten laufen ebenso wie CDP selbst auf Kubernetes und unterstützen so Container-Orchestrierung, ohne Leistungsverlust, wie Makhija betont.

Die künftige CDP stellt nicht nur ein umfassendes Governance- und Sicherheitskonzept zur Verfügung, sondern soll auch eine verbesserte Oberfläche erhalten. Die Schnittstellen Data Warehouse Experience (DWX) und DataFlow Experience werden auf Personas ausgerichtet, die befugt sind, diese Komponenten zu nutzen – sie sind also rollenorientiert. Kontrolle über ihre Workflows erhalten sie über die in CDP eingebaute NiFi-Registry.

"Unsere Vision für die Enterprise Data Cloud sieht den Support für alle Entwickler-Personas vor: Streaming-Verarbeitung, SQL-basierte Analysen und Code-basierte Datenverarbeitung", so Makhija weiter. Dies erfolge in einer sicheren und kontrollierten Umgebung, die Governance und Auditing beispielsweise zur Analyse von Datenabstammung in der gesamten Daten-Pipeline unterstützt. "Das gehört zu den dringendsten Anforderungen unserer Kunden."

Das Ziel bestehe darin, ein Daten-Ökosystem zu schaffen, das sowohl die Erfassung, die Analyse als auch die Verarbeitung der Daten umfasst. Dazu soll die Enterprise Data Cloud insbesondere auch Daten von der Edge in die KI-Verarbeitung einbringen, die bisher nicht erfasst werden konnten. (map)