Transformador de detección de fuentes abiertas de IA de Facebook (DETR)

Contenidos

Introducción

De vez en cuando, una biblioteca o un marco de aprendizaje automático cambia el panorama del campo. En la actualidad, Facebook abrió un marco de este tipo: DETR o DEtection TRansformer.

Transformador de detección

En este post, comprenderemos rápidamente el concepto de detección de objetos y después nos sumergiremos de forma directa en DETR y lo que aporta.

Detección de objetos de un vistazo

En Computer Vision, la detección de objetos es una tarea en la que queremos que nuestro modelo distinga los objetos en primer plano del fondo y prediga las ubicaciones y las categorías de los objetos presentes en la imagen. Los enfoques actuales de aprendizaje profundo intentan solucionar la tarea de detección de objetos como un obstáculo de clasificación o como un obstáculo de regresión o ambos.

A modo de ejemplo, en el algoritmo RCNN, se identifican varias regiones de interés a partir de la imagen de entrada. Posteriormente, estas regiones se clasifican como objetos o como fondo y, por último, se utiliza un modelo de regresión para generar los cuadros delimitadores para los objetos identificados.

El marco YOLO (You Only Look Once), por otra parte, se encarga de la detección de objetos de una manera distinto. Toma la imagen completa en una sola instancia y predice las coordenadas del cuadro delimitador y las probabilidades de clase para estos cuadros.

Para obtener más información sobre la detección de objetos, consulte estos posts:

Presentamos DEtection TRansformer (DETR) de Facebook AI

Como vio en la sección anterior, los algoritmos de aprendizaje profundo actuales realizan la detección de objetos en varios pasos. Además sufren el problema de casi duplicados, dicho de otra forma, falsos positivos. Para simplificar, los investigadores de Facebook AI han ideado DETR, un enfoque innovador y eficiente para solucionar el problema de detección de objetos.

El papel original es aquí, el código fuente abierto es aquíy puede consultar el cuaderno de Colab aquí.

transformador de detección

Fuente: https://arxiv.org/pdf/2005.12872.pdf

Este nuevo modelo es bastante simple y no es necesario instalar ninguna biblioteca para usarlo. DETR trata un obstáculo de detección de objetos como un obstáculo de predicción de conjuntos directos con la ayuda de una arquitectura de codificador-decodificador basada en transformadores. Por conjunto, me refiero al conjunto de cuadros delimitadores. Los transformadores son la nueva generación de modelos de aprendizaje profundo que han tenido un desempeño sobresaliente en el dominio de la PNL.

Los autores de este post han evaluado DETR en uno de los conjuntos de datos de detección de objetos más populares, COCO, frente a una línea de base de Faster R-CNN muy competitiva.

En los resultados, el DETR logró desempeños comparables. Más exactamente, DETR demuestra un rendimiento significativamente mejor en objetos grandes. A pesar de esto, no funcionó tan bien en objetos pequeños. Estoy seguro de que los investigadores lo resolverán muy pronto.

Arquitectura de DETR

La arquitectura general de DETR es bastante sencillo de comprender. Contiene tres componentes principales:

  • una columna vertebral de CNN
  • un transformador codificador-decodificador
  • una red de alimentación directa simple

transformador de detección de objetos

Fuente: https://arxiv.org/pdf/2005.12872.pdf

Aquí, la red troncal de CNN genera un mapa de características a partir de la imagen de entrada. Posteriormente, la salida de la red troncal de CNN se convierte en un mapa de características unidimensional que se pasa al codificador Transformer como entrada. La salida de este codificador es N número de incrustaciones de longitud fija (vectores), donde N es el número de objetos en la imagen asumidos por el modelo.

El decodificador Transformer decodifica estas incrustaciones en las coordenadas del cuadro delimitador con la ayuda del mecanismo de atención del decodificador y del propio codificador.

En resumen, las redes neuronales de alimentación directa predicen las coordenadas centrales normalizadas, la altura y el ancho de los cuadros delimitadores y la capa lineal predice la etiqueta de clase usando una función softmax.

Pensamientos finales

Este es un marco verdaderamente emocionante para todos los entusiastas del aprendizaje profundo y la visión por computadora. Un gran agradecimiento a Facebook por compartir su enfoque con la comunidad.

¡Es hora de abrocharse el cinturón y utilizar esto para nuestro próximo proyecto de aprendizaje profundo!

Suscribite a nuestro Newsletter

No te enviaremos correo SPAM. Lo odiamos tanto como tú.