Cluster-Manager: D2jQ Kaptain 1.1 nutzt inhärente Skalierbarkeit von Kubernetes
Entwickler erhalten mit Kaptain eine Plattform, die sie dabei unterstützen möchte, ihre Projekte in kurzer Zeit vom Prototypen in die Produktion zu bringen.
Das 2019 aus Mesosphere hervorgegangene Unternehmen D2iQ hat Version 1.1 seiner Kubernetes-Plattform Kaptain vorgelegt. Es ermöglicht das Ausführen komplexer KI- und ML-Workloads auf einer skalierbaren und portablen End-to-End-Plattform für Machine Learning (ML). Die Plattform basiert auf dem MLOps-Werkzeug Kubeflow, das Pipelines dediziert für Machine-Learning-System ermöglicht. "Vom Prototyp zur Produktion in wenigen Minuten" lautet das Versprechen von D2jQ.
Kaptain basiert auf Kubeflow
Das Update baut vor allem auf vier Elementen aus der ersten Major Version auf. Kaptain 1.1 basiert auf Teilen von Kubeflow und bringt Unterstützung für die ML-Frameworks TensorFlow, PyTorch, MXNET sowie Out-of-the-Box GPU Support mit. Die Arbeit lässt sich vollständig über ein Jupyter Notebook steuern. Das Kaptain Software Development Kit (SDK) unterstützt Data Scientists mit Datensätzen und ermöglicht, die gemeinsame Nutzung von GPUs.
Das Team hinter Kaptain hebt vor allem die Geschwindigkeit hervor, mit der Entwickler ihre Projekte vom Status des Prototyps zur Produktionsreife hieven können. Kaptain nutzt Kubernetes für automatisch skalierenden Modell-Deployments sowie die Produktionsinfrastruktur für das Training, Tuning und Bereitstellung von Modellen. Des Weiteren ermöglicht Version 1.1 speziell offenbar eine störungsfreie Aktualisierung der Kaptain-Cluster. Upgrades lassen sich an einem laufenden Cluster durchführen, ohne Workloads oder andere Projekte zu unterbrechen.
Nähere Informationen zum Release finden sich im Beitrag auf dem offiziellen D2jQ-Blog.
(mdo)