Grandi dati

Trasformatore di rilevamento open source AI di Facebook (DETR)

introduzione

Occasionalmente, una libreria o un framework di machine learning cambia il panorama del settore. Attualmente, Facebook ha aperto una struttura del genere: DETR o DEtection Transformer.

In questo post, capiremo rapidamente il concetto di rilevamento di oggetti e poi ci immergeremo direttamente in DETR e cosa porta.

Rilevamento di oggetti a colpo d'occhio

Una visione artificiale, il rilevamento degli oggetti è un compito in cui vogliamo che il nostro modello distingua gli oggetti in primo piano dallo sfondo e preveda le posizioni e le categorie degli oggetti presenti nell'immagine. Los enfoques actuales de apprendimento profondoApprendimento profondo, Una sottodisciplina dell'intelligenza artificiale, si affida a reti neurali artificiali per analizzare ed elaborare grandi volumi di dati. Questa tecnica consente alle macchine di apprendere modelli ed eseguire compiti complessi, come il riconoscimento vocale e la visione artificiale. La sua capacità di migliorare continuamente man mano che vengono forniti più dati lo rende uno strumento chiave in vari settori, dalla salute... intentan solucionar la tarea de detección de objetos como un obstáculo de clasificación o como un obstáculo de regresión o ambos.

Come esempio, nell'algoritmo RCNN, diverse regioni di interesse sono identificate dall'immagine di input. Successivamente, queste regioni sono classificate come oggetti o come sfondo e, finalmente, un modello di regressione viene utilizzato per generare i riquadri di delimitazione per gli oggetti identificati.

La struttura YOLO (Guardi una volta sola), d'altra parte, gestisce il rilevamento degli oggetti in modo diverso. Prende l'intera immagine in una singola istanza e prevede le coordinate del riquadro di delimitazione e le probabilità di classe per questi riquadri.

Per ulteriori informazioni sul rilevamento di oggetti, guarda questi post:

Vi presentiamo DEtection TRansformer (DETR) di Facebook AI

Come hai visto nella sezione precedente, gli attuali algoritmi di deep learning eseguono il rilevamento di oggetti in più passaggi. Soffrono anche del problema dei quasi duplicati, In altre parole, falsi positivi. Per semplificare, I ricercatori di Facebook AI hanno ideato DETR, un approccio innovativo ed efficiente per risolvere il problema del rilevamento degli oggetti.

La carta originale è qui, il codice open source è quie puoi consultare il taccuino Colab qui.

Fonte: https://arxiv.org/pdf/2005.12872.pdf

Questo nuovo modello è abbastanza semplice e non è necessario installare alcuna libreria per utilizzarlo. DETR tratta un ostacolo per il rilevamento di oggetti come un ostacolo di previsione impostato direttamente con l'aiuto di un'architettura encoder-decodificatore basata su trasformatore. Per set, Intendo il set di riquadri di delimitazione. I trasformatori sono la nuova generazione di modelli di deep learning che si sono comportati in modo eccezionale nel dominio della PNL.

Gli autori di questo post hanno valutato DETR su uno dei set di dati di rilevamento degli oggetti più popolari., COCO, rispetto a una linea di base R-CNN molto competitiva più veloce.

Nei risultati, il DETR ha ottenuto prestazioni comparabili. Più accuratamente, DETR dimostra prestazioni significativamente migliori su oggetti di grandi dimensioni. Nonostante questo, non ha funzionato altrettanto bene su piccoli oggetti. Sono sicuro che i ricercatori lo scopriranno molto presto.

Architettura DETR

L'architettura generale di DETR è abbastanza semplice da capire. Contiene tre componenti principali:

una spina dorsale della CNN
un trasformatore encoder-decodificatore
una semplice rete passante

Fonte: https://arxiv.org/pdf/2005.12872.pdf

Qui, La dorsale della CNN genera una mappa delle caratteristiche dall'immagine di input. Successivamente, l'output della dorsale CNN viene convertito in una mappa di caratteristiche unidimensionale che viene passata all'encoder Transformer come input. L'output di questo encoder è N numero di incorporamenti a lunghezza fissa (vettore), dove N è il numero di oggetti nell'immagine assunti dal modello.

Il decodificatore del trasformatore decodifica questi incorporamenti alle coordinate del riquadro di delimitazione con l'aiuto del meccanismo di attenzione del decodificatore e del codificatore stesso..

In sintesi, le reti neurali feedforward prevedono coordinate centrali normalizzate, la altura y el ancho de los cuadros delimitadores y la capa lineal predice la etiqueta de clase usando una Funzione SoftMaxLa funzione softmax è uno strumento matematico utilizzato nel campo dell'apprendimento automatico, soprattutto nelle reti neurali. Converte un vettore di valore in una distribuzione di probabilità, Assegnazione di probabilità a ciascuna classe in problemi di multi-classificazione. La sua formula normalizza gli output, garantire che la somma di tutte le probabilità sia uguale a uno, consentendo un'interpretazione efficace dei risultati. È essenziale nell'ottimizzazione della....

Pensieri finali

Questo è un quadro davvero entusiasmante per tutti gli appassionati di deep learning e visione artificiale.. Un grande ringraziamento a Facebook per aver condiviso il loro approccio con la community.

È ora di allacciarsi le cinture e utilizzarlo per il nostro prossimo progetto di deep learning!!

Imparentato

Messaggi recenti

uomo-produzione-musica-studio-di-registrazione-1

Iscriviti alla nostra Newsletter

Non ti invieremo posta SPAM. Lo odiamo quanto te.

Trasformatore di rilevamento open source AI di Facebook (DETR)

Contenuti

introduzione

Rilevamento di oggetti a colpo d'occhio

Vi presentiamo DEtection TRansformer (DETR) di Facebook AI

Architettura DETR

Pensieri finali

Imparentato

Messaggi recenti

L'intelligenza artificiale nei video: Come le nuove tecnologie stanno cambiando la produzione video?

Profili IT da considerare

Come registrare uno schermo su computer Windows?

Conosci i livelli di anzianità?

Encuentre sus Mejores Anillos Rozantes y Juntas Rotativas Aquí

Agenzia di Posa: Vantaggi del link building per un negozio online

Iscriviti alla nostra Newsletter

Gioco

Marche

Attività commerciale

Le lingue

Trasformatore di rilevamento open source AI di Facebook (DETR)

Contenuti

introduzione

Rilevamento di oggetti a colpo d'occhio

Vi presentiamo DEtection TRansformer (DETR) di Facebook AI

Architettura DETR

Pensieri finali

Imparentato

Articoli correlati:

Messaggi recenti

L'intelligenza artificiale nei video: Come le nuove tecnologie stanno cambiando la produzione video?

Profili IT da considerare

Come registrare uno schermo su computer Windows?

Conosci i livelli di anzianità?

Encuentre sus Mejores Anillos Rozantes y Juntas Rotativas Aquí

Agenzia di Posa: Vantaggi del link building per un negozio online

Iscriviti alla nostra Newsletter

Gioco

Marche

Attività commerciale

Le lingue