Big Data

Facebook AI Open Source Discovery Transformer (DETR)

Introdução

De vez em quando, uma biblioteca ou estrutura de aprendizado de máquina muda o cenário do campo. Na atualidade, O Facebook abriu essa estrutura: DETR o DEtection TRansformer.

Neste post, entenderemos rapidamente o conceito de detecção de objetos e, em seguida, mergulharemos diretamente no DETR e no que ele traz.

Detecção de objetos em um piscar de olhos

Uma Visão Computacional, a detecção de objetos é uma tarefa em que queremos que nosso modelo distinga os objetos de primeiro plano do fundo e preveja as localizações e categorias dos objetos presentes na imagem. As abordagens atuais de aprendizado profundo tentam resolver a tarefa de detecção de objetos como um obstáculo de classificação ou um obstáculo de regressão ou ambos..

Como um exemplo, no algoritmo RCNN, várias regiões de interesse são identificadas a partir da imagem de entrada. Subseqüentemente, essas regiões são classificadas como objetos ou como plano de fundo e, por último, um modelo de regressão é usado para gerar as caixas delimitadoras para os objetos identificados.

A estrutura YOLO (Você só olha uma vez), por outro lado, lida com a detecção de objetos de uma maneira diferente. Pega a imagem inteira em uma única instância e prevê as coordenadas da caixa delimitadora e as probabilidades de classe para essas caixas.

Para obter mais informações sobre a detecção de objetos, consulte estos posts:

Apresentamos DEtection TRansformer (DETR) do Facebook AI

Como você viu na seção anterior, algoritmos de aprendizado profundo atuais realizam detecção de objetos em várias etapas. Eles também sofrem com o problema de quase duplicatas, Em outras palavras, falso-positivo. Para simplificar, Pesquisadores de IA do Facebook criaram DETR, uma abordagem inovadora e eficiente para resolver o problema de detecção de objetos.

O papel original é aqui, código-fonte aberto é aquie você pode consultar o caderno Colab aqui.

Fonte: https://arxiv.org/pdf/2005.12872.pdf

Este novo modelo é bastante simples e você não precisa instalar nenhuma biblioteca para usá-lo. DETR trata um obstáculo de detecção de objeto como um obstáculo de predição de conjunto direto com a ajuda de uma arquitetura de codificador-decodificador baseada em transformador. Por conjunto, Quero dizer, o conjunto de caixa delimitadora. Os transformadores são a nova geração de modelos de aprendizado profundo que tiveram um desempenho excepcional no domínio da PNL.

Os autores desta postagem avaliaram o DETR em um dos conjuntos de dados de detecção de objetos mais populares., COCO, versus uma linha de base Faster R-CNN muito competitiva.

Nos resultados, o DETR alcançou desempenhos comparáveis. Mais precisamente, DETR demonstra desempenho significativamente melhor em objetos grandes. Apesar disto, não funcionou tão bem em objetos pequenos. Tenho certeza que os pesquisadores descobrirão muito em breve.

Arquitetura DETR

A arquitetura geral do DETR é bastante simples de entender. Contém três componentes principais:

um backbone da CNN
um transformador codificador-decodificador
uma rede de passagem simples

Fonte: https://arxiv.org/pdf/2005.12872.pdf

Aqui, O backbone da CNN gera mapa de recursos a partir da imagem de entrada. Subseqüentemente, a saída do backbone CNN é convertida em um mapa de recursos unidimensional que é passado para o codificador do Transformer como entrada. A saída deste codificador é um número N de encaixes de comprimento fixo (vetor), onde N é o número de objetos na imagem assumido pelo modelo.

O decodificador Transformer decodifica esses embeddings nas coordenadas da caixa delimitadora com a ajuda do mecanismo de atenção do decodificador e do próprio codificador..

Em resumo, redes neurais feedforward predizem coordenadas de centro normalizadas, a altura e largura das caixas delimitadoras e a camada linear prevê o rótulo da classe usando uma função softmax.

Pensamentos finais

Esta é uma estrutura verdadeiramente empolgante para todos os entusiastas do aprendizado profundo e da visão computacional.. Um grande obrigado ao Facebook por compartilhar sua abordagem com a comunidade.

É hora de apertar o cinto e usar isso em nosso próximo projeto de aprendizado profundo!!