Machine Learning: ML Kit erkennt E-Mail-Adressen, IBANs, Datumsangaben und mehr
Die neue Entity-Extraction-API erweitert das Natural Language Processing um Funktionen zur Erkennung und Verwendung von Entitäten.
- Rainald Menge-Sonnentag
Google hat das auf Machine Learning in mobilen Anwendungen ausgelegte Software Development Kit (SDK) ML Kit um einen neue API zum Erkennen und Verwalten von Entitäten beziehungsweise Einheiten innerhalb von Texten erweitert. Die Entity Extraction ist unter dem Bereich Natural Language Processing aufgehängt und erkennt derzeit elf unterschiedliche Textobjekte wie E-Mail-Adressen, URLs oder Telefonnummern.
Google hatte das SDK erstmals auf der Google I/O 2018 vorgestellt. Es enthält unter dem Schlagwort "Vision" Methoden für die Bild- beziehungsweise Videoanalyse, während sich unter "Natural Language" Funktionen für das Analysieren und Verarbeiten von Texten befinden. Ursprünglich war das ML Kit eng mit Firebase verbunden, aber im Juni hat Google es von der Mobilplattform gelöst.
IBAN? Konto! ISBN? Buch! Telefonnummer? Ruf mich an!
Die API ist darauf ausgelegt, sogenannte Entities – deren deutsche Übersetzung Entitäten holprig wirkt – zu erkennen, um beispielsweise durch einen Chatbot kontextbezogene Antworten oder passende externe Apps zu finden.
Die API erkennt die Entitäten Adresse, E-Mail, Flugnummer, Geldbetrag inklusive Währung, IBAN, ISBN, Payment-Karte, Telefonnummer, Tracking-Nummer, URL sowie Zeit und Datum. Zum Start deckt die API fünfzehn natürliche Sprachen ab, zu denen auch Deutsch gehört.
Mit neuronalen Netzen zu Inhalten und Typen
Die API durchsucht Texte nach entsprechenden Objekten, um sie jeweils als Paare aus "Entity Type" und "Entity Text" bereitzustellen. Dabei überträgt sie relative Informationen in konkrete und formt beispielsweise aus "gestern" oder "morgen" absolute Datumsangaben wie "13.12.2020" beziehungsweise "15.12.2020".
Das iX-Developer-Sonderheft "Machine Learning" behandelt auf 148 Seiten unter anderem ML-Frameworks, Textanalyse, Reinforcement Learning und die Produktivstellung von Modellen. Im Fokus steht die praktische Anwendung, und zu den meisten Artikeln existieren Jupyter-Notebooks als Basis für eigene ML-Projekte.
Zwei Artikel beleuchten die Textanalyse mit Word2vec und BERT, und ein Text widmet sich der Umsetzung von Machine-Learning-Anwendungen auf mobilen Endgeräten mit TensorFlow Lite.
Unter der Haube setzt die API auf die 2018 vorgestellte API Smart Linify zur Textklassifizierung auf. Sie verwendet ein künstliches neuronales Netz, um zusammengehörige Bereiche als Entity zu erkennen.
Weitere Details zur Entity-Extraction-API und ersten Anwendungen lassen sich dem Google-Entwicklerblog entnehmen. Eine ausführlichere technische Beschreibung von Smart Linkify findet sich in einem älteren Beitrag in Googles KI-Blog.
(rme)