Build 2019: Künstliche Intelligenzen mit neuen Cognitive Services schaffen

Technologie pur – das ist das Prinzip der Fachkonferenz Build, zu der Microsoft alljährlich lädt. Anfang Mai war es wieder soweit: In drei Keynotes und zahlreichen Sessions hatten die Teilnehmer die Gelegenheit, sich über aktuelle und kommende Technologien zu informieren. Und die Build wäre nicht die Build, hätte es nicht auch wieder jede Menge spannende Ankündigungen gegeben.

Eines der Fokusthemen war Künstliche Intelligenz. Entwickler dürfen sich beispielsweise über eine Reihe von Neuerungen rund um die Cognitive Services freuen – diese reichen von neuen APIs bis hin zu Services, die die Preview-Phase verlassen und offiziell verfügbar sind.

Neue APIs bei den Cognitive Services, die ab sofort als Preview getestet werden können, sind Personalizer, Conversation Transcription, Form Recognizer und Ink Recognizer. Offiziell verfügbar sind Neural Text-to-Speech, Computer Vision Read und Text Analytics Named Entity Recognition. Außerdem wurden die beiden Speech Services Speech-to-Text und Text-to-Speech sowie Anomaly Detector und Form Recognizer um Container-Unterstützung ergänzt. Das bedeutet, dass sie auch auf Edge-Geräten, also für den Einsatz in IoT-Anwendungen, genutzt werden können.

Personalisierte Inhalte mithilfe Künstlicher Intelligenz

Einzelhandel, Medien und E-Commerce sind nur einige der Branchen, die seit geraumer Zeit nach einer idealen Lösung für die Personalisierung ihrer Anwendungen und Webangebote suchen. Oft kommt dafür eine komplizierte Mischung aus CRM, DMP und A/B-Tests zum Einsatz.

Ein neuer Ansatz hierfür ist „Reinforcement Learning“ (Bestärkendes/Verstärkendes Lernen), eine Reihe von Methoden beim Machine Learning, bei denen ein Agent eigenständig eine Strategie auf Basis von Feedback erlernt. Hier kommt Personalizer ins Spiel, ein neuer Cognitive Service von Microsoft, der ab sofort als Preview zur Verfügung steht.

Bei Personalizer handelt es sich um einen Cloud-basierten API-Dienst, der Entwickler dabei unterstützt, Nutzern auf Basis ihres Nutzerverhaltens die bestmögliche Nutzererfahrung und passende Inhalte zur Verfügung zu stellen. Folgende Möglichkeiten bietet Personalizer:

Anzeigen der Top-Aktion für einen Benutzer auf Basis von Informationen zum Nutzer und zu den Inhalten
Analysedaten in Echtzeit
Der Einsatz von Personalizer ist ohne vorherige Datenbereinigung oder Klassifizierung der Daten möglich.

Personalizer verwendet Machine-Learning-Modelle, um herauszufinden, welche Aktion in einem bestimmten Kontext die wichtigste ist. Eine Client-Anwendung enthält eine Liste möglicher Aktionen mit Informationen zu diesen und Informationen über den Kontext, z. B. über den Benutzer, das Gerät usw. Personalizer bestimmt auf Basis dieser Daten die durchzuführende Aktion. Sobald eine Client-Anwendung die gewählte Aktion verwendet, gibt sie eine Rückmeldung an Personalizer in Form eines „Reward Score“. Nachdem die Feedbackschleife abgeschlossen ist, aktualisiert Personalizer automatisch das verwendete Modell für zukünftige Aktionen.

Die Einsatzmöglichkeiten für Personalizer sind vielfältig. Der Dienst kann beispielsweise dazu genutzt werden, um zu entscheiden, welcher Artikel auf einer Webseite hervorgehoben werden soll oder welche Produkte einem Kunde auf einem Shopping-Portal als Empfehlungen angezeigt werden sollen. Optimiert werden könnte auch die Anzeigenplatzierung auf einer Webseite oder die Fragen und Antworten, die ein Chatbot gibt. Auch ließen sich Vorschläge priorisieren, was ein Nutzer als nächsten Schritt in einem Geschäftsprozess tun sollte.

Weiterführende Ressourcen zu Personalizer

Content besser nutzbar machen

Zu den Neuerungen rund um die Cognitive Services, die im Rahmen der Build 2019 vorgestellt wurden, gehören auch zwei neue Dienste zu Erkennung und Verarbeitung von Inhalten. Form Recognizer erkennt und extrahiert Daten aus Tabellen und Formularen und Ink Recognizer bietet Unterstützung bei der Erkennung von Inhalten, die per Stifteingabe erstellt wurden.

Form Recognizer

Form Recognizer ist ein neuer Cognitive Service, der mithilfe von Machine-Learning-Technologie Schlüsselwertpaare und Tabellendaten in Formularen erkennt und extrahiert. Anschließend werden strukturierte Daten ausgegeben, die die Beziehungen in der Originaldatei enthalten. Durch das sog. Unsupervised Learning (Unüberwachtes Lernen) kann das Modell das Layout und die Beziehungen zwischen Feldern und Einträgen ohne manuelle Datenkennzeichnung oder Codierung und Wartung verstehen.

Der benutzerdefinierte Form Recognizer kann über eine einfache REST API aufgerufen werden, um die Komplexität zu reduzieren und ihn einfach in Workflows und Anwendungen integrieren zu können. Zum Start benötigt man fünf Formulare oder ein leeres Formular des gleichen Typs als initialen Input. Wenn man die Eingabedaten übermittelt, trainiert der Algorithmus sich darauf, gruppiert die Formulare nach Typen, ermittelt, welche Schlüssel und Tabellen vorhanden sind, und lernt, den Schlüsseln Werte und Einträge in den Tabellen zuzuordnen. Dank der Unterstützung für Container kann dieser Dienst lokal und in der Cloud ausgeführt werden.

Ink Recognizer

Der Ink Recognizer, ein neuer Cognitive Service, der als Preview zur Verfügung steht, bietet eine Cloud-basierte REST API zur Analyse und Erkennung von Digital-Ink-Inhalten. Im Gegensatz zu Diensten, die die optische Zeichenerkennung (Optical Character Recognition, OCR) verwenden, benötigt die API „Digitale Tintenstriche“ als Eingabe. Dabei handelt es sich um zeitlich geordnete Sätze von 2D-Punkten (X-, Y-Koordinaten), die die Bewegung von Eingabewerkzeugen wie digitalen Stiften oder Fingern nachvollziehbar machen. Der Dienst erkennt dann die Formen bzw. den handgeschriebenen Inhalt aus der Eingabe und gibt eine JSON-Antwort zurück, die alle erkannten Entitäten enthält.

Mithilfe der Ink Recognizer API lassen sich unter anderem Handschriften, Layout und Formen erkennen. Außerdem ist der Dienst in der Lage zu unterscheiden, ob ein Strich zu einer Form oder einem Wort gehört. Ink Recognizer ist mit Office 365 und Windows integriert und bietet Nutzern die Freiheit, Inhalte auf eine natürliche Weise zu erstellen.

Weiterführende Ressourcen zu Ink und Form Recognizer

Blog-Beitrag: Eas ist neu bei den Cognitive Services – ein Deep Dive (engl.)
Produktseite: Form Recognizer (engl.)
Dokumentation: Form Recognizer (engl.)
Produktseite: Ink Recognizer (engl.)
Dokumentation: Ink Recognizer (engl.)

Wer hat wann was gesagt: Transkription von Meetings mit den Cognitive Services

Conversation Transcription, eine fortschrittliche Sprache-zu-Text-Funktion der Cognitive Services, die derzeit als Preview zur Verfügung steht, soll die Meeting-Effizienz verbessern, indem Konversationen in Echtzeit transkribiert werden. Dabei wird auch erfasst, wer wann was gesagt hat. Durch die Integration des Speech Services SDK, das ab sofort allgemein verfügbar ist, mit Geräten zur Transkription von Gesprächen lassen sich Transkripte mit höherer Qualität erzielen. Es lässt sich auch mit einer Vielzahl von Konferenzlösungen integrieren, beispielsweise Microsoft Teams oder Anwendungen von Drittanbietern.

Conversation Transcription bringt folgende Funktionen mit sich:

Aufnahme von Sprachbeiträgen aus dem gesamten Meeting-Raum
Datenschutz auf Basis von Sicherheits- und Compliance-Zertifizierungen auf Unternehmensniveau
Unterstützung für Meeting-Setups, die Mikrofone und Videokameras nutzen

Weiterführende Ressourcen zu Conversation Transcription

Blog-Beitrag: Eas ist neu bei den Cognitive Services – ein Deep Dive (engl.)
Dokumentation: Speech Services SDK (engl.)
Produktseite: Cognitive Speech Services (engl.)

Und noch viel mehr Neues in Sachen Künstliche Intelligenz

Updates bei Azure Machine Learning (ML) vereinfachen die Entwicklung, das Training sowie den Einsatz von Machine-Learning-Modellen: MLOps-Funktionen (DevOps für Machine Learning), die mit Azure DevOps integriert sind, bieten Entwicklern die Möglichkeit, den Machine-Learning-Zyklus zu verwalten. Automatisiertes ML und eine intuitive Benutzerschnittstelle erleichtern zudem die Entwicklung hochwertiger Lernmodelle. Das visuelle ML Interface unterstützt ebenso mittels einfacher Drag-and-Drop-Funktionen die schnelle Modellierung ohne Programmiercode.

Die KI-Funktion Cognitive Search verbindet Künstliche Intelligenz mit Azure Search und ermöglicht die Auswertung von strukturierten und unstrukturierten Inhalten durch Algorithmen aus den Azure Cognitive Services. Darüber hinaus lassen sich die Ergebnisse von Cognitive Search speichern und für Power-BI-Visualisierungen oder Machine Learning-Modelle nutzen.

ML.NET steht ab sofort in der finalen Version 1.0 zur Verfügung. Mit Version 1.0 wurden auch einige Funktionen implementiert, die als Preview getestet werden können. Dazu gehören unter anderem automatisiertes Machine Learning (AutoML) und Tools wie ML.NET CLI und ML.NET Model Builder.

ML.NET bietet einen End-to-End-Workflow für die Nutzung von Machine Learning in .NET-Apps über verschiedene ML-Schritte hinweg (Pre-Processing, Feature-Engineering, Modellierung, Bewertung und Operationalisierung). Dafür wurden in ML.NET 1.0 verschiedene Schlüsselkomponenten implementiert, wie Unterstützung für verschiedene Machine-Learning-Aufgaben und diverse Funktionen zur Datentransformierung.