Google Cloud Dataflow bekommt einen intelligenten Datenaufbereitungsservice

Bei Googles neuem Datenaufbereitungsservice Cloud Dataprep handelt es sich um ein die Data-Wrangling-Software von Trifacta nutzendes Cloud-Angebot, das unter dem Dach von Google Cloud Dataflow beheimatet ist.

In Pocket speichern vorlesen Druckansicht
Google Cloud Dataflow bekommt einen intelligenten Datenaufbereitungsservice
Lesezeit: 3 Min.
Von
  • Alexander Neumann

Trifacta, Anbieter einer Data-Wrangling-Software, und Google haben auf der "Google Next 2017"-Konferenz gemeinsam angekündigt, an der Entwicklung von Google Cloud Dataprep zu arbeiten. Der Cloud-Dienst ist mit der Benutzeroberfläche von Trifacta sowie dem Photon Compute Framework ausgestattet und in Google Cloud Dataflow integriert, einen Service zum Erstellen von Daten-Workflows. Er ermöglicht im Browser die serverlose, über Machine-Learning-Techniken selbst skalierende Ausführung von Datenaufbereitungsverfahren.

Mit Google Cloud Dataprep ist es Analysten offenbar möglich, in Googles Cloud-Plattform verschiedenartige Datasets für Downstream-Szenarien wie Analytics und maschinelles Lernen zu erkunden und aufzubereiten. So lassen sich damit wohl automatisch Datenschemata, Joins und Anomalien wie fehlende oder doppelte Werte erkennen, ohne dass man das explizit programmieren müsste. Benutzer können damit eine Reihe von Regeln für die Verarbeitung der Informationen erstellen. Diese Regeln werden dann im Apache-Streams-Format erstellt und können in Produkte wie Google Cloud Dataflow importiert werden, um Informationen zu verarbeiten, und mit Data-Warehouse-Diensten wie Googles BigQuery zusammenspielen.

Das Angebot hat derzeit noch den Status einer geschlossenen Beta-Version, was bedeutet, dass man für den derzeit noch nicht bepreisten Dienst via E-Mail sein Interesse bekunden muss.

Andere Neuerungen aus dem Umfeld von Google Cloud Dataflow sind darüber hinaus die generelle Verfügbarkeit des Python SDK für den Cloud-Dienst. Es basiert auf Apache Beam, und seine Implementierung hat sich wohl in einer Vielzahl von Anwendungsfällen bewährt, in denen Python häufig bei ETL-Aufgaben (Extract, Transform, Load) verwendet wird, etwa bei er Verarbeitung großformatiger Bilder oder zur Datenvorbereitung für das maschinelle Lernen.

Ebenfalls "General Availability"-Status hat nun Cloud Datalab, mit dem Entwickler Analysen mit Jupyter-Notebooks erstellen können, indem sie Rohdaten, die in BigQuery oder dem Cloud Storage liegen, durch SQL-Abfragen in Kombination mit Python-Skripten zu Dokumenten verarbeiten. Diese werden als Notebooks gespeichert und können mit anderen Nutzern geteilt werden. Mit der Aufwertung fällt auch zusammen, dass Cloud Datalab nun die Machine-Learning-Frameworks TensorFlow und Scikit-learn unterstützt sowie Batch- und Stream-Verarbeitung entweder mit Cloud Dataflow oder Apache Spark via Cloud Dataproc ermöglicht.

Bei Letzterem handelt es sich um einen Managed-Cloud-Service, mit dem Unternehmen auf den Cluster-Management-Frameworks Hadoop, Spark oder Flink basierende Cluster rasch aufsetzen, diese verwalten und auch wieder entfernen können. Auch bei Cloud Dataproc gab es etliche Neuerungen. Beta-Status hat schließlich die Stackdriver-Unterstützung in Cloud Dataflow. Sie bietet Monitoring-Dienste aus der Cloud (MaaS – Monitoring as a Service), um andere extern laufende Services zu überwachen. (ane)