APIs für die Spracherkennung und Textanalyse: Neues aus der Azure-AI-Welt

Microsoft erweitert die Azure Cognitive Services um vier APIs. Dabei geht es vor allem um neue Funktionen für Spracherkennung, -eingabe sowie zur Textanalyse.

1

(Bild: Gerd Altmann, Lizenz CC0 / Public Domain)

13.07.2020, 17:12 Uhr

Lesezeit: 2 Min.

iX Magazin

Von

Carina Schipper

Microsoft hat mehrere neue Funktionen für die Azure Cognitive Services veröffentlicht. Hinter dem Namen stecken kognitive APIs, mit deren Hilfe sich intelligente Apps entwickeln lassen. Durch die Schnittstellen können Maschinen sehen und hören, also ihre Umgebung kognitiv erfassen. Bis jetzt erstreckt sich das Angebot der mehr als 30 Dienste über die Bereiche Entscheidungsfindung, Spracherkennung und -eingabe sowie Bildanalyse und Websuche.

Text Analytics for Health richtet sich ans Gesundheitswesen und erlaubt Medizinern, mithilfe unstrukturierter medizinischer Daten zu fundierten Erkenntnissen zu gelangen. Angesichts der Corona-Krise haben Microsoft und das Allen Institute of AI eine kostenlose Sammlung von mehr als 47.000 wissenschaftlichen Dokumenten zusammengetragen, das COVID-19-Open-Research-Dataset. Daneben soll für die kognitive Suche eine neu entwickelte COVID-19-Suchmaschine dazu dienen, neue Erkenntnisse aus der Erforschung und Bekämpfung des Corona-Virus zu gewinnen.

Welche Stimmung zwischen den Zeilen mitschwingt

Fortschritte bei der Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) ermöglichen Microsoft, eine neue Opinion-Mining-Funktion für die Textanalyse zur Verfügung zu stellen. Sie erkenne Stimmungen in Texten und erlaube so zum Beispiel genauere Analysen von Kundenstimmen in Social Media, geben die Entwickler an.

Der ab sofort verfügbare Form Recognizer erkennt unstrukturierte Daten, die sich etwa in Formularen mit Tabellen, Objekten und anderen Elementen finden. Bisher mussten Unternehmen solche Daten manuell klassifizieren.

Mit Nutzern kommunizieren

Zu den neu verfügbaren Schnittstellen zählt auch Custom Commands. Entwickler binden damit kundenspezifische Sprachfunktionen in Anwendungen ein, die gesprochene Sprache verarbeiten (Speech to Text) und verstehen (Language Understanding). Voice Response und Text to Speech versetzen die Anwendungen außerdem in die Lage, mit ihren Nutzern zu kommunizieren. Dabei folgt Microsoft dem Low-Code-Prinzip – entsprechend hält sich der Programmieraufwand für Entwickler in Grenzen.

Mit Neural Text to Speech wachsen die sprachlichen Fähigkeiten der Cognitive Services um 15 neue Stimmen an. Sie basieren auf modernen Modellen für die neuronale Sprachsynthese. Dazu zählen Arabisch (Ägypten, Saudi-Arabien), Katalanisch (Spanien), Dänisch (Dänemark), Englisch (Indien), Hindi (Indien), Niederländisch (Niederlande), Polnisch (Polen), Portugiesisch (Portugal), Russisch (Russland), Schwedisch (Schweden), Thailändisch (Thailand), Chinesisch (kantonesisch, traditionell und taiwanesischer Mandarin).