Facebook legt Code für Deep-Learning-Framework DETR offen

Der von Facebooks KI-Abteilung entwickelte DEtection TRansformer (DETR) liefert einen neuen Ansatz für die Objekterkennung.

(Bild: issaro prakalung/Shutterstock.com)

29.05.2020, 12:21 Uhr

Lesezeit: 2 Min.

Developer

Von

Madeleine Domogalla

Facebook AI stellt den Quellcode des Deep-Learning-Frameworks DEtection TRansformer (DETR) frei zur Verfügung. Der Transformer bietet eine neue Herangehensweise für die Objekterkennung und die panoptische Segmentierung zur schnelleren Zuordnung von Objekten. DL-Modelle dieses Typs haben sich bereits beim Natural Language Processing (NLP) bewährt, kommen bisher aber kaum für maschinelles Sehen (Computer Vision) zum Einsatz.

Ein Blick unter die Haube

An dieser Stelle möchte Facebook mit dem DEtection TRansformer ansetzen. Während die bisher gängigen Deep-Learning-Algorithmen die Objekterkennung als mehrstufigen Prozess durchlaufen, ist DETR darauf ausgelegt, die Erkennung als Direct-Set-Prediction-Problem anzugehen. Dazu baut der Transformer auf einer Encoder-Decoder-Architektur auf, der ein CNN (Convolutional Neural Network) als Backbone vorgeschaltet ist, das eine eindimensionale Feature Map der eingespielten Bilder liefert.

Aus einem kleinen Satz gelernter Objektabfragen leitet DETR Vorhersagen zu den Beziehungen zwischen den Objekten und dem globalen Bildkontext ab. Dabei macht er sich Bipartite Matching zunutze, ein mathematisches Modell für Beziehungen zwischen den Elementen zweier Mengen, das sich besonders zur Untersuchung von Zuordnungsproblemen eignet, wie die folgende Grafik von Facebook AI veranschaulicht.

End-to-End-Objekterkennung mit DETR

(Bild: Facebook AI)

Den endgültigen Satz aller Vorhersagen liefert der Transformer dann parallel aus, was ihn nach Einschätzung der Facebook-Forscher schneller und effizienter als die bisherigen Ansätze macht. Das Projekt kann laut Facebook AI mit modernsten Methoden wie der Faster R-CNN Baseline auf dem COCO-Objekterkennungsdatensatz mithalten, aber lediglich die Hälfte der Rechenleistung benötigen. Darüber hinaus soll sich die Architektur von DL-Modellen für die Objekterkennung mit DETR grundsätzlich vereinfachen und rationalisieren lassen. Facebook beschreibt das Framework als erstes Objekterkennungssystem, das erfolgreich Transformatoren als zentralen Baustein in die Erkennungspipeline integriert.

Videos by heise