NetApp Spot holt Big Data auf die Kubernetes-Welle

Als Serverless Container Engine soll Wave die Infrastrukturverwaltung für containerisierte Spark-Anwendungen auf Kubernetes vereinfachen.

9

(Bild: Brett Allen / Shutterstock.com)

18.03.2021, 12:36 Uhr

Lesezeit: 2 Min.

Developer

Von

Matthias Parbel

Nach der Übernahme des auf Managementtools zur Optimierung von Cloud-Infrastrukturen spezialisierten israelischen Start-ups Spot im vergangenen Jahr hat Storage-Anbieter NetApp nun die Serverless Container Engine Wave angekündigt. Wave soll die Infrastrukturverwaltung für Big-Data-Anwendungen auf Kubernetes vereinfachen und weitestgehend automatisieren, damit Data Scientists und Data Engineers sich darauf konzentrieren können, containerisierte Spark-Workflows bereitzustellen, ohne sich mit komplexen Aufgaben wie der Clusterkonfiguration und deren Autoskalierung beschäftigen zu müssen.

Vollständig verwaltete Datenebene für serverless Spark

Wave setzt auf der von Spot entwickelten Container-Automatisierungsplattform Ocean auf, die anhand kontinuierlicher Analyse der verwendeten Cloud-Infrastruktur jeweils eine optimale Mischung aus Spot-, reservierten und On-Demand-Recheninstanzen wählen soll, um den Betrieb sowohl hinsichtlich der Performance als auch der Kosten zu optimieren. Dabei überwacht Ocean unter anderem die Anforderungen von Pods und Tasks sowie die Ressourcenauslastung.

Videos by heise

Darauf aufbauend stellt Wave eine vollständige verwaltete Datenebene für Spark-Cluster bereit, die automatisiert das Provisionieren, Skalieren, Verwalten und Optimieren der Infrastrukturressourcen für Spark Executor Pods übernimmt. Unterstützt durch KI-Algorithmen passt Wave kontinuierlich und NetApp zufolge auch vorausschauend den jeweiligen Bedarf an CPU-Leistung, Speicher und weiterer Ressourcen der Spark-Anwendung an. Wave beherrscht zudem offenbar auch das Bin-Packing von Spark Executors, um vorhandene Nodes optimal auslasten zu können, bevor weitere Instanzen provisioniert werden müssen.

Wave bietet eine vollständig verwaltete Datenebene für Spark-Cluster.

(Bild: spot.io)

NetApp Spot stellt Wave als Kubernetes-Cluster zur Verfügung, auf den Anwender über die Spot-Konsole zugreifen können. Neue Cluster lassen sich über die Kommandozeile von Wave anlegen oder importieren. Dank Integrationen von JupyterHub, Airflow, dem Spark History Server und spark-submit haben Nutzer unter anderen die Möglichkeit Jupyter- oder Zeppelin-Notebooks lokal zu konfigurieren, während sie Spark-Anwendungen remote auf Kubernetes ausführen. Weitergehende Details zu Wave finden sich im Blogbeitrag zur Ankündigung sowie auf der Website zur Serverless Container Engine.

(map)