Transformateur de découverte Open Source Facebook AI (DETR)

Contenu

introduction

De temps en temps, une bibliothèque ou un cadre d'apprentissage automatique change le paysage du domaine. Actuellement, Facebook a ouvert un tel cadre: DETR o DEtection TRansformer.

Transformateur de détection

Dans ce billet, on comprendra rapidement le concept de détection d'objets puis on plongera directement dans DETR et ce qu'il apporte.

Détection d'objets en un coup d'œil

et vision par ordinateur, la détection d'objets est une tâche où nous voulons que notre modèle distingue les objets de premier plan de l'arrière-plan et prédise les emplacements et les catégories des objets présents dans l'image. Les approches actuelles d'apprentissage en profondeur tentent de résoudre la tâche de détection d'objets en tant qu'obstacle de classification ou de régression ou les deux..

Par exemple, dans l'algorithme RCNN, plusieurs régions d'intérêt sont identifiées à partir de l'image d'entrée. Ensuite, ces régions sont classées comme objets ou comme arrière-plan et, finalement, un modèle de régression est utilisé pour générer les cadres de délimitation pour les objets identifiés.

Le cadre YOLO (Tu ne regardes qu'une fois), d'autre part, gère la détection d'objets d'une manière différente. Prend l'image entière en une seule instance et prédit les coordonnées de la boîte englobante et les probabilités de classe pour ces boîtes.

Pour plus d'informations sur la détection d'objets, voir ces messages:

Nous présentons DEtection TRANSformer (DETR) de l'IA de Facebook

Comme vous l'avez vu dans la section précédente, les algorithmes d'apprentissage en profondeur actuels effectuent une détection d'objets en plusieurs étapes. Ils souffrent également du problème des quasi doublons, En d'autres termes, faux positifs. Pour simplifier, Les chercheurs de Facebook AI ont conçu DETR, une approche innovante et efficace pour résoudre le problème de la détection d'objets.

Le papier d'origine est ici, le code source ouvert est iciet vous pouvez consulter le cahier Colab ici.

transformateur de détection

La source: https://arxiv.org/pdf/2005.12872.pdf

Ce nouveau modèle est assez simple et vous n'avez pas besoin d'installer de bibliothèque pour l'utiliser. DETR traite un obstacle de détection d'objet comme un obstacle de prédiction à ensemble direct à l'aide d'une architecture de codeur-décodeur à base de transformateur. Par ensemble, Je veux dire le cadre de délimitation. Les transformateurs sont la nouvelle génération de modèles d'apprentissage en profondeur qui ont réalisé des performances exceptionnelles dans le domaine de la PNL.

Les auteurs de cet article ont évalué DETR sur l'un des ensembles de données de détection d'objets les plus populaires., COCO, par rapport à une référence Faster R-CNN très compétitive.

Dans les résultats, le DETR a réalisé des performances comparables. Plus précisément, DETR démontre des performances nettement meilleures sur les objets volumineux. Malgré cela, ne fonctionnait pas aussi bien sur de petits objets. Je suis sûr que les chercheurs le comprendront très bientôt.

Architecture DETR

L'architecture générale de DETR est assez simple à comprendre. Contient trois composants principaux:

  • une dorsale CNN
  • un transformateur encodeur-décodeur
  • un simple réseau de traversée

transformateur de détection d'objets

La source: https://arxiv.org/pdf/2005.12872.pdf

Ici, Le backbone CNN génère une carte des caractéristiques à partir de l'image d'entrée. Ensuite, la sortie de la dorsale CNN est convertie en une carte de caractéristiques unidimensionnelle qui est transmise à l'encodeur Transformer en entrée. La sortie de cet encodeur est un nombre N d'intégrations de longueur fixe (vecteur), où N est le nombre d'objets dans l'image supposée par le modèle.

Le décodeur Transformer décode ces plongements aux coordonnées de la boîte englobante à l'aide du mécanisme d'attention du décodeur et de l'encodeur lui-même..

En résumé, les réseaux de neurones prédictifs prédisent les coordonnées centrales normalisées, la hauteur et la largeur des cadres de délimitation et la couche linéaire prédisent l'étiquette de classe à l'aide d'une fonction softmax.

Dernières pensées

Il s'agit d'un cadre vraiment passionnant pour tous les passionnés d'apprentissage en profondeur et de vision par ordinateur.. Un grand merci à Facebook pour partager leur approche avec la communauté.

Il est temps de boucler votre ceinture et de l'utiliser pour notre prochain projet d'apprentissage en profondeur !!

Abonnez-vous à notre newsletter

Nous ne vous enverrons pas de courrier SPAM. Nous le détestons autant que vous.