Verwaltung und Inbetriebnahme von ML-Modellen

Werkzeuge wie DVC und Cortex, die auf Operationalisierung von KI-Projekten ausgelegt sind, sollen Entwicklern beim Deployen von Modellen in Produktion helfen.

2

(Bild: Black Jack/Shutterstock.com)

29.09.2020, 07:04 Uhr

Lesezeit: 15 Min.

Developer

Von

Nico Axtmann

Obwohl ein großer Hype um Machine Learning und KI existiert, landet bei den meisten Unternehmen nur ein Bruchteil der entwickelten Modelle in der Produktion. Die Werterzeugung mit datengetriebenen Entscheidungen wird bei den Unternehmen in den nächsten Jahren zunehmend im Fokus stehen. Viele beginnen KI- und Datenstrategien zu implementieren. In den vergangenen Jahren sind zahlreiche Deep-Learning-Frameworks wie TensorFlow, PyTorch oder MxNet entstanden und gewachsen.

Young Professionals schreiben für Young Professionals

Dieser Beitrag ist Teil einer Artikelserie, zu der die Heise-Redaktion junge Entwickler:innen einlädt – um über aktuelle Trends, Entwicklungen und persönliche Erfahrungen zu informieren. Bist du selbst ein "Young Professional" und willst einen (ersten) Artikel schreiben? Schicke deinen Vorschlag gern an die Redaktion: developer@heise.de. Wir stehen dir beim Schreiben zur Seite.

Insgesamt hat der große Anteil an Open-Source-Software die Entwicklung der Modelle stark vereinfacht. Heute erweitern viele Werkzeuge das Ökosystem, die mehr Struktur und Stabilität in die Entwicklung und das Deployment der KI-Applikationen bringen. Der Fokus der neuen Tools erstreckt sich von der Daten- und Modellverwaltung bis hin zum Deployment der Modelle auf unterschiedlichen Cloud-Plattformen (s. Abb. 1). Ziel ist es, Hilfestellung zu geben, um Modelle in Produktion zu bekommen.

Daten- und Modellverwaltung, Training und Deployment mit verschiedenen Open-Source-Tools wie DVC, ONNX und Cortex (Abb. 1)

Das Vorhaben – Vogelperspektive

Dieser Artikel zeigt, wie sich KI-Projekte mit DVC, ONNX (Open Neural Network Exchange) und Cortex von der Entwicklung bis hin zur Produktion reproduzierbar und skalierbar umsetzen lassen, unabhängig vom verwendeten Deep-Learning-Framework. Unterschiedliche Frameworks kommen für das Trainieren von Modellen zum Einsatz, die man anschließend in einer homogenen Produktionsumgebung als REST-API in Betrieb nutzt.

Verzeichnisstruktur des Projekts (Abb. 2)

Als Datenbasis dient Fashion MNIST von Zalando. Interessierte können die Daten als gezipptes NumPy-Array herunterladen. Für den Artikel hat der Autor die Daten in ein Python-Skript eingelesen und anschließend nach ihrem Label (Ordner) als PNG-Datei abgespeichert. Fashion MNIST repräsentiert verschiedene Artikel aus dem Modebereich mit über 60.000 Graustufenbildern. Die Bilder haben jeweils eine Größe von 28 x 28 Pixel. Die im Datensatz angegeben Trainings- und Testdaten kann man herunterladen. Im Anschluss lässt sich die unter Abbildung 2 dargestellte Verzeichnisstruktur erstellen. In den Verzeichnissen train und test gibt es jeweils die Unterverzeichnisse Ankle_boot, Bag, Coat, Dress, Pullover, Sandal, Shirt, Sneaker, Trouser und Tshirt_top. In den Verzeichnissen sind die dazugehörigen Bilder als PNG-Datei hinterlegt.