Content Analytics – Bring your own AI vs. Driver-less AI

Seite 3: Driver-less AI als Teil einer Plattform

Inhaltsverzeichnis

Beherrschen der Komplexität, die Automatisierung der Modellerstellung sowie des Deployments, die stetige Verbesserung im Produktivbetrieb und eine direkte Operation auf den Daten dort, wo diese sich befinden – das sind entscheidende Aspekte, die sowohl für die Integration von ML- und NLP-Methoden in die Plattformen als auch für einen Ansatz sprechen, der als Auto-ML oder Driver-less AI bezeichnet wird.

Die Integration von ML- und NLP Methoden in die Plattformen zur Datenhaltung findet sich sowohl bei Datenbanken wie Google BigQuery ML, Vertica sowie SQL Server Machine Learning Services als auch im Enterprise Content Management (ECM) bei Content Services Platforms wie Doxis4 Cognitive Services. Gerade im ECM-Umfeld lassen sich hierbei NLP-Funktionen wiederverwenden, die im Bereich einer intelligenten Volltextsuche sowieso bereits vorhanden sind. Die Datenvorverarbeitung beruht hier auf ähnlichen Prinzipien. Tokenizer, Stemmer und TF/IDF-Statistik sind in Anwendungen wie Elasticsearch oder Apache Solr ohnehin integriert.

Der gesamte Schritt des Sammelns von Beispieldaten und der Datenvorverarbeitung vereinfacht sich dadurch deutlich. Nutzt ein ECM zur Verwaltung der Inhalte Metadaten und keine Ordnerstrukturen, so liegen gelabelte Inhalte vor, die sich mit einer einfachen Suchbedingung direkt für die Textklassifikation nutzen lassen. Das ECM dient hier unmittelbar als "ground truth" und Benchmarks in Bezug auf Verbesserungen oder Verschlechterungen der Erkennungsrate können einfach direkt im Produktivsystem erfolgen. Die Plattform speichert die trainierten Modelle direkt versioniert.

Auswahl der Datensätze direkt in der Content-Plattform auf Basis von Metadaten (Abb. 2)

Die Komplexität lässt sich mit einem AutoML -Ansatz weiter reduzieren. Wie bei fast allen KI-Themen zählen Google, Salesforce & Co als Vorreiter (Google AutoML, Salesforce TransmogrifAI, AutoKeras etc.). Aber auch andere Anbieter wie H2O.ai oder im Kontext von Content-Plattformen SER sind auf den Zug aufgesprungen. AutoML bedeutet in diesem Kontext, viele der oben am Beispiel der Textklassifikation dargestellten Optionen – vom Feature Engineering bis zur Model Selection und dem Parameter Tuning – automatisch zu evaluieren, um das beste Verfahren zu ermitteln. Dann bleibt nur noch die Entscheidung, nach welchem Kriterium das beste Verfahren ermittelt werden soll. Oft bietet sich der F1-Score als Mittelweg zwischen geringer Fehlerquote und hoher Erkennungsrate an – beides gleichzeitig ist noch Zukunftsmusik.

Letztlich liegt es nahe, das "Probieren geht über Studieren" zu automatisieren und mit der Automatisierung eine wohldefinierte und reproduzierbare Pipeline zur Erstellung und Anwendung von ML-Modellen in Produktivsystemen zu entwickeln. Die KI-Experten einiger Plattformhersteller haben den Baukasten bereits passend zusammengestellt, sodass Cognitive Services zum integralen Bestandteil der Plattform avancieren – so wie sich vor Jahren auch Workflow-Funktionen in ERP, CRM und ECM-Systeme etabliert haben.

ML-Tutorial operationalisiert: AutoML-Pipeline zur Textklassifikation passend – hier mit Bayes, GBDT, SVM und MLP konfiguriert (Abb. 3)