Machine Learning: Low-Code-Library PyCaret 2.0 automatisiert den ML-Workflow
Die quelloffene ML-Library in der Programmiersprache Python basiert auf einem Low-Code-Konzept und lässt sich am sichersten in einer virtuellen Umgebung nutzen.
- Silke Hahn
Die quelloffene Machine-Learning-Library PyCaret ist in Version 2.0 erschienen. PyCaret ist ein End-to-End-verschlĂĽsseltes Tool zum Verwalten von ML-Modellen im experimentellen Bereich und basiert auf dem Low-Code-Prinzip.
Nutzern erlaubt das Tool zum Beispiel das automatische Vervollständigen von Code durch Ergänzungsvorschläge gebräuchlicher Codezeilen und bietet darüber hinaus Services von der Vorbereitung der Daten über die Modellauswahl bis zum Deployment. Während des Setups erledigt das Tool offenbar automatisch die üblichen Pre-Processing-Umwandlungen der Daten, mit denen Entwicklerinnen und Entwickler arbeiten möchten.
Datensätze vorbereiten und Modelle vergleichen mit PyCaret
PyCaret lässt sich laut Ankündigung des PyCaret-Teams für die Vorbereitung von Datensätzen verwenden, zum Beispiel, um Testsätze zu unterteilen und zu samplen, die Daten zu normalisieren oder Cluster zu bilden und Ausreißer automatisch zu entfernen. Nutzer können aus rund 20 Transformations-Optionen wählen, welche Variante das Tool mit ihrem Datensatz durchführen soll.
In überwachten ML-Szenarien kann PyCaret Modelle mit Standard-Hyperparametern für Klassifikation und Regression probetrainieren und die dabei erhaltenen Performance-Metriken vergleichen – dies soll Nutzer offenbar bei der Wahl des am besten geeigneten Modells für ihr jeweiliges Szenario unterstützen, die Funktion heißt compare_model
.
Das Tool eignet sich laut Herausgebern auch zum Trainieren von Modellen und zum Feintuning der Hyperparameter. Außerdem umfasst es Features zur Analyse und Interpretation von Daten und erlaubt neuerdings das Logging von Experimenten. Neu hinzugekommen seit Version 1.x sind auch Parameter zum System-Logging und zum Beheben von Unwuchten in den Datensätzen (fix_imbalance
und fix_imbalance_method
). Der Parameter save
erweitert nun das plot_model
um die Möglichkeit, Plots als png- oder html-Datei zu speichern: Wenn Nutzer diesen Wert auf "True" setzen, speichert PyCaret den aktuellen Plot im aktiv bearbeiteten Arbeitsverzeichnis ab.
Installation in einer virtuellen Umgebung empfohlen
Um Konflikte mit laufenden Anwendungen und deren Bibliotheken zu vermeiden, empfiehlt das PyCaret-Team, das Tool in einer virtuellen Umgebung zu installieren, worin es nicht auf andere Bibliotheken zugreifen kann. Die Installation für die Entwicklungsumgebung Conda zum Beispiel lässt sich mit folgenden Befehlen ausführen:
# create a conda environment
conda create --name yourenvname python=3.6
# activate environment
conda activate yourenvname
# install pycaret
pip install pycaret==2.0
# create notebook kernel linked with the conda environment python -m
ipykernel install --user --name yourenvname --display-name "display-name"
Wer Azure Notebooks oder Google Colab nutzt, kann die Installation mit dem folgenden Befehl durchfĂĽhren: !pip install pycaret==2.0
. Die Installation mit pip
bindet automatisch alle Abhängigkeiten ein.
Detailliertere Anwendungsbeispiele lassen sich dem ankĂĽndigenden Blogbeitrag entnehmen. Alle technischen Details finden Interessierte in den Release Notes auf GitHub, wo das Projekt gehostet ist.
(sih)