Machine Learning: IBM veröffentlicht ein Open-Source-Toolkit für Jupyter
Mit dem Elyra AI Toolkit lassen sich unter anderem Pipelines erstellen und Jupyter Notebooks als Batch Jobs ausführen.
IBM hat mit Elyra ein Toolkit veröffentlicht, das den Umgang mit Jupyter erweitert und die Oberfläche von JupyterLab ergänzt. Die Werkzeugsammlung enthält ein grafisches Werkzeug zum Erstellen von Notebook-Pipelines und ermöglicht das Ausführen von Jupyter Notebooks als Batch Jobs. Außerdem bietet sie eine Integration von Git zum Versionieren und erlaubt das Erstellen von Konfigurationen für einzelne Laufzeitumgebungen.
Das Elyra AI Toolkit ist ein Open-Source-Projekt, das allerdings vor allem auf das Zusammenspiel mit IBMs kommerziellem Watson Studio zugeschnitten ist. Letzteres hat im Dezember eine Anbindung an JupyterLab als Ergänzung zu herkömmlichen Jupyter Notebooks erhalten. Elyra lässt sich allerdings auch unabhängig von IBMs kommerziellem Angebot verwenden.
Pipelines und Runtime
Die grafische Oberfläche zum Erstellen von Notebook-Pipelines hat IBM ursprünglich als Teil von Watson Studio entwickelt. Data Scientists und Entwickler können damit ML-Pipelines (Machine Learning) erstellen, die Jupyter Notebooks verbinden. Außerdem erweitert Elyra die Notebook UI um einen Dialog zum Erstellen von Batch Jobs aus einem Jupyter Notebook.
Das Toolkit vereinfacht zudem das Ausführen von Notebooks auf verteilten Clustern im Zusammenspiel mit Apache Spark, Kubernetes oder OpenShift. Grundlage dazu ist die Hybrid Runtime, die auf das Jupyter Enterprise Gateway aufsetzt. Um Arbeitsumgebungen grundsätzlich auf unterschiedliche Laufzeitumgebungen zuzuschneiden, bietet Elyra einen sogenannten Shared Configuration Service: Konfigurationen für externe Laufzeitumgebungen, die sich für mehrere Komponenten nutzen lassen.
Entwickler und Data Scientists können mit Elyra dank der Integration von Git Notebooks versionieren und im Team teilen. Noch als experimentell gekennzeichnet sind Code Snippets zum Definieren häufig benötigter Codefragmente, die sich über die Oberfläche direkt in Notebooks einfügen lassen.
Weitere Details unter anderem zum Ausführen von Python-Skripten auf hybriden Runtimes lassen sich dem Entwicklerblog bei IBM entnehmen. Der Sourcecode zum Elyra AI Toolkit steht auf GitHub zur Verfügung. (rme)