Maschinelles Lernen: Google veröffentlicht eine API zur Objekterkennung
Die Tensor Flow Object Detection API nutzt der Suchmaschinenanbieter bereits intern in der Bildersuche, für Street View und in einem Tool für die Nest-Cam-Geräten. Nun hat Google das System als Open-Source-Projekt freigegeben.
Das Erkennen von Objekten auf Bildern ist eine Anwendung von künstlicher Intelligenz, die gleichermaßen praxistauglich ist und sich gut zur Demonstration eignet. Google hat nun mit der TensorFlow Object Detection API ein System veröffentlicht, das das Unternehmen laut dem Research-Blog bereits seit geraumer Zeit intern einsetzt. So ist es unter anderem als Bestandteil des Tools für die Nest-Cam-Geräte verfügbar, das beispielsweise einen Hinweis geben kann, wenn eine Person in den Kamerabereich tritt. Außerdem nutzt der Suchmaschinenanbieter es zum Erkennen von Straßennamen in Street View und zum Finden von Stilanregungen in der Google-Android-App.
Das Open-Source-Framework baut auf das von Google vorangetriebene ML-Framework (Machine Learning) TensorFlow auf und enthält bereits einige Erkennungsmodelle, darunter einen Single Shot MultiBox Detector (SSD), Region-based Convolutional Neural Networks (R-CNN) und Region-based Fully Convolutional Networks (R-FCN) sowie jeweils darauf aufsetzende Erweiterungen. Ein Jupyter Notebook ist ebenfalls Bestandteil des Open-Source-Projekts. Die MobileNets-Variante des SSD ist besonders schlank und damit auf den mobilen Einsatz optimiert. Google hatte mit einer Version des Faster R-CNN 2016 Microsofts COCO (Common Objects in Context) Detection Challenge gewonnen.
Bildanalyse bei Google und den Wettbewerbern
Bereits im September vorigen Jahres hatte Google mit "Show and Tell" ein System zum Erstellen von Bildunterschriften herausgegeben, das Objekte erkennt, beschreibt und ebenfalls als TensorFlow-Modell implementiert ist. Facebook hatte im Sommer 2016 mit DeepMask und SharpMask Open-Source-Bibliotheken veröffentlicht, die Objekte innerhalb von Bildern erkennen und auf der TensorFlow-Alternative Torch aufsetzen. Zudem bietet Microsoft mit den Cognitive Services ebenso Bildanalysefunktionen wie IBM mit der Watson API. (rme)