Google baut eine Pipeline für Machine Learning
Die Cloud AI Platform Pipelines sollen Machine-Learning-Modelle vom Entwurf in den Produktivbetrieb bringen.
Google hat für seine Cloud-Plattform ein neues Angebot vorgestellt, das beim Überführen von Machine-Learning-Modellen (ML) vom Entwurf in den produktiven Einsatz helfen soll. Die Cloud AI Platform Pipelines setzen auf der Infrastruktur des Internetriesen auf und bieten eine Anbindung an die Google Kubernetes Engine.
Die Motivation für die Pipelines ist, dass viele Entwickler und Data Scientists nach dem Entwurf eines Modells beim Überführen in den Betrieb viele Hürden überwinden müssen. Für die herkömmliche Softwareentwicklung existieren zahlreiche Methoden und Systeme für Continuous Integration, aber im Bereich des Machine Learning ist derzeit noch viel Handarbeit erforderlich. Hier wie dort gilt es Dependencies zu berücksichtigen, Auditing und Monitoring durchzuführen und den Deployment-Prozess reproduzierbar zu gestalten.
Zwei SDKs für Modelle
Entwickler können die Installation über einen Button direkt aus der Google Cloud Console anstoßen. Hinsichtlich des SDK können sie wahlweise auf die Kubeflow Pipelines (KFP) oder TensorFlow Extended setzen. Letzteres baut auf Googles ML-Framework TensorFlow auf und ist speziell für ML-Arbeitsabläufe ausgerichtet, während Ersteres Bestandteil des Kubeflow-Projekts ist und Framework-agnostisch arbeitet.
Es bietet einen Low-Level-Zugriff und mehr Steuerungsmöglichkeiten über die zugrundeliegenden Kubernetes-Ressourcen. Mittelfristig sollen die beiden SDKs verschmelzen. Mit dem KFP-SDK lassen sich individuelle Kubeflow-Pipeline-Komponenten verwenden.
Bausteine, Vorlagen und Versionen
Eine TFX-Pipeline setzt sich typischerweise aus vorgefertigten Bausteinen zusammen wie der StatisticsGen
-Komponente zum Generieren von Feature-Statistiken oder der Trainer
-Komponente zum Trainieren eines TensorFlow-Modells. Das TFX-SDK ermöglicht das Verwenden von Vorlagen für die Arbeitsschritte in der Pipeline. Zum Start der Beta stellt Google eine Vorlage zum Klassifizieren bereit, die für TensorFlow optimiert ist, und weitere Templates sollen folgen.
Die Pipelines haben Zugriff auf diverse Datenplattformen innerhalb der Google Cloud wie Dataflow, AI Platform Training, Big Query. Die Plattform bietet zudem eine Versionsverwaltung für die Pipelines. Im Zuge der Veröffentlichung hat Google Pläne für die Weiterentwicklung wie Multi-User-Isolation und zusätzliche Vorlagen angekündigt.
Weitere Details lassen sich dem Google-Cloug-Blog entnehmen. Derzeit haben die AI Platform Pipelines noch Betastatus. Interessierte Anwender finden bei Google eine Startanleitung zum Einrichten eigener Pipelines. (rme)