Introducción
De vez en cuando, una biblioteca o un marco de aprendizaje automático cambia el panorama del campo. En la actualidad, Facebook abrió un marco de este tipo: DETR o DEtection TRansformer.
En este post, comprenderemos rápidamente el concepto de detección de objetos y después nos sumergiremos de forma directa en DETR y lo que aporta.
Detección de objetos de un vistazo
En Computer Vision, la detección de objetos es una tarea en la que queremos que nuestro modelo distinga los objetos en primer plano del fondo y prediga las ubicaciones y las categorías de los objetos presentes en la imagen. Los enfoques actuales de aprendizaje profundoEl aprendizaje profundo, una subdisciplina de la inteligencia artificial, se basa en redes neuronales artificiales para analizar y procesar grandes volúmenes de datos. Esta técnica permite a las máquinas aprender patrones y realizar tareas complejas, como el reconocimiento de voz y la visión por computadora. Su capacidad para mejorar continuamente a medida que se le proporcionan más datos la convierte en una herramienta clave en diversas industrias, desde la salud... intentan solucionar la tarea de detección de objetos como un obstáculo de clasificación o como un obstáculo de regresión o ambos.
A modo de ejemplo, en el algoritmo RCNN, se identifican varias regiones de interés a partir de la imagen de entrada. Posteriormente, estas regiones se clasifican como objetos o como fondo y, por último, se utiliza un modelo de regresión para generar los cuadros delimitadores para los objetos identificados.
El marco YOLO (You Only Look Once), por otra parte, se encarga de la detección de objetos de una manera distinto. Toma la imagen completa en una sola instancia y predice las coordenadas del cuadro delimitador y las probabilidades de clase para estos cuadros.
Para obtener más información sobre la detección de objetos, consulte estos posts:
Presentamos DEtection TRansformer (DETR) de Facebook AI
Como vio en la sección anterior, los algoritmos de aprendizaje profundo actuales realizan la detección de objetos en varios pasos. Además sufren el problema de casi duplicados, dicho de otra forma, falsos positivos. Para simplificar, los investigadores de Facebook AI han ideado DETR, un enfoque innovador y eficiente para solucionar el problema de detección de objetos.
El papel original es aquí, el código fuente abierto es aquíy puede consultar el cuaderno de Colab aquí.
Fuente: https://arxiv.org/pdf/2005.12872.pdf
Este nuevo modelo es bastante simple y no es necesario instalar ninguna biblioteca para usarlo. DETR trata un obstáculo de detección de objetos como un obstáculo de predicción de conjuntos directos con la ayuda de una arquitectura de codificador-decodificador basada en transformadores. Por conjunto, me refiero al conjunto de cuadros delimitadores. Los transformadores son la nueva generación de modelos de aprendizaje profundo que han tenido un desempeño sobresaliente en el dominio de la PNL.
Los autores de este post han evaluado DETR en uno de los conjuntos de datos de detección de objetos más populares, COCO, frente a una línea de base de Faster R-CNN muy competitiva.
En los resultados, el DETR logró desempeños comparables. Más exactamente, DETR demuestra un rendimiento significativamente mejor en objetos grandes. A pesar de esto, no funcionó tan bien en objetos pequeños. Estoy seguro de que los investigadores lo resolverán muy pronto.
Arquitectura de DETR
La arquitectura general de DETR es bastante sencillo de comprender. Contiene tres componentes principales:
- una columna vertebral de CNN
- un transformador codificador-decodificador
- una red de alimentación directa simple
Fuente: https://arxiv.org/pdf/2005.12872.pdf
Aquí, la red troncal de CNN genera un mapa de características a partir de la imagen de entrada. Posteriormente, la salida de la red troncal de CNN se convierte en un mapa de características unidimensional que se pasa al codificador Transformer como entrada. La salida de este codificador es N número de incrustaciones de longitud fija (vectores), donde N es el número de objetos en la imagen asumidos por el modelo.
El decodificador Transformer decodifica estas incrustaciones en las coordenadas del cuadro delimitador con la ayuda del mecanismo de atención del decodificador y del propio codificador.
En resumen, las redes neuronales de alimentación directa predicen las coordenadas centrales normalizadas, la altura y el ancho de los cuadros delimitadores y la capa lineal predice la etiqueta de clase usando una función softmaxLa función softmax es una herramienta matemática utilizada en el campo del aprendizaje automático, especialmente en redes neuronales. Convierte un vector de valores en una distribución de probabilidad, asignando probabilidades a cada clase en problemas de clasificación múltiple. Su fórmula normaliza las salidas, asegurando que la suma de todas las probabilidades sea igual a uno, lo que permite interpretar los resultados de manera efectiva. Es fundamental en la optimización de....
Pensamientos finales
Este es un marco verdaderamente emocionante para todos los entusiastas del aprendizaje profundo y la visión por computadora. Un gran agradecimiento a Facebook por compartir su enfoque con la comunidad.
¡Es hora de abrocharse el cinturón y utilizar esto para nuestro próximo proyecto de aprendizaje profundo!
Relacionado
Posts Relacionados:
- Enfoque de fuentes abiertas de Google para visualizar conjuntos de datos grandes y de alta dimensión utilizando tSNE
- Detección de anomalías univariadas | Algoritmos de detección de anomalías
- Archivos de detección de anomalías – DataPeaker
- Cree un modelo de detección de rostros en un video usando Python