Architettura Alexnet | Introduzione all'architettura Alexnet

Contenuti

obbiettivo

  • Quando si parla del modello Pre-addestrato nel dominio della Computer Vision, Alexnet sta emergendo come un'architettura leader.
  • Comprendiamo l'architettura dell'iniziativa Alexnet dai suoi autori.

introduzione

Alexnet ha vinto la sfida di accreditamento visivo su larga scala di Imagenet in 2012. Il modello è stato proposto in 2012 nel posto di ricerca chiamato Classificazione Imagenet con rete neurale a convoluzione profonda di Alex Krizhevsky e colleghi.

In questo modello, profondità di rete aumentata rispetto a Lenet-5. Nel caso volessi saperne di più su Lenet-5, Ti consiglio di consultare il seguente articolo-

Nota: Se sei più interessato ad apprendere concetti in un formato audiovisivo, abbiamo questo post completo spiegato nel video qui sotto. Se non è così, puoi continuare a leggere.

Alexnet tiene ocho capas con parametri que se pueden aprender. Il modello è composto da cinque strati con una combinazione di raggruppamento massimo seguito da 3 capas absolutamente conectadas y usan la activación riprendere en cada una de estas capas, excepto en la Livello di output.

Descubrieron que el uso de relu como funzione sveglia aceleraba la velocidad del procedimiento de addestramento en casi seis veces. Hanno anche usato gli strati di abbandono, che ha impedito il sovradattamento del tuo modello. Allo stesso tempo, il modello è addestrato sul set di dati Imagenet. Il set di dati Imagenet è quasi 14 milioni di immagini in mille classi.

Vediamo i dettagli architettonici in questo post.

Architettura Alexnet

Una cosa a cui prestare attenzione qui, poiché Alexnet è un'architettura profonda, gli autori hanno introdotto il padding per evitare che la dimensione delle mappe delle caratteristiche fosse drasticamente ridotta. L'input di questo modello sono le immagini di dimensioni 227X227X3.

Architettura a strati Alexnet

Strati di convoluzione e raggruppamento massimo

Quindi applichiamo il primo strato di convoluzione con 96 Filtri formato 11X11 con passo 4. La funzione di attivazione utilizzata in questo livello è relu. La mappa delle caratteristiche di uscita è 55X55X96.

Nel caso in cui non sai come calcolare la dimensione di output di un livello di convoluzione

uscita = ((Dimensione del filtro di ingresso) / passo) +1

Allo stesso tempo, il numero di filtri diventa il canale nella mappa delle caratteristiche di uscita.

Prossimo, abbiamo il primo strato di Maxpooling, Dimensioni e passo 3X3 2. Dopo, otteniamo la feature map risultante con la dimensione 27X27X96.

Dopo di che, applichiamo la seconda operazione di convoluzione. Questa volta, la dimensione del filtro è ridotta a 5X5 e abbiamo 256 filtri di questo tipo. Il passo è 1 e l'imbottitura 2. La funzione di attivazione utilizzata è di nuovo relu. Ora la dimensione dell'output che otteniamo è 27X27X256.

Ancora, applichiamo una mano di raggruppamento massimo di dimensioni 3X3 con passo 2. La mappa delle caratteristiche risultante ha la forma 13X13X256.

Ora applichiamo la terza operazione di convoluzione con 384 Filtri per le dimensioni del passo 3X3 1 e anche imbottitura 1. Anche in questo caso la funzione di attivazione utilizzata è relu. La mappa delle funzionalità di output ha la forma 13X13X384.

Allora abbiamo la quarta operazione di convoluzione con 384 Filtri di dimensioni 3X3. Il passo lungo con l'imbottitura è 1. Allo stesso tempo, la funzione di attivazione utilizzata è rilu. Ora la dimensione dell'output rimane invariata, In altre parole, 13X13X384.

Dopo di che, abbiamo lo strato di convoluzione di dimensioni 3X3 finale con 256 filtri di questo tipo. Stride e padding sono impostati su uno e la funzione trigger è relu. La mappa delle caratteristiche risultante ha la forma 13X13X256.

Quindi, se guardi l'architettura finora, la cantidad de filtros aumenta a misura que profundizamos. Perché, sta estraendo più funzionalità man mano che passiamo all'architettura. Allo stesso tempo, la dimensione del filtro si sta riducendo, il che significa che il filtro iniziale era più grande e, mentre andiamo, la dimensione del filtro diminuisce, con conseguente diminuzione della forma della mappa delle caratteristiche.

Prossimo, applichiamo il terzo strato di raggruppamento massimo di dimensioni 3X3 e passo 2. Risultante nella mappa delle caratteristiche della forma 6X6X256.

Strati assolutamente connessi e abbandonati

Architettura Alexnet di strati completamente connessi e abbandonati

Dopo di che, abbiamo il nostro primo strato di abbandono. Il tasso di abbandono è impostato su 0,5.

Después tenemos la primera capa absolutamente conectada con una función de activación relu. La dimensione dell'output è 4096. Poi arriva un altro livello di abbandono con il tasso di abbandono impostato su 0,5.

Questo seguito da un secondo livello assolutamente connesso con 4096 neuroni e attivazione relu.

In conclusione, abbiamo l'ultimo livello o livello di output assolutamente connesso con 1000 neuroni, dal momento che abbiamo 10000 classi nel set di dati. La funzione di attivazione utilizzata in questo livello è Softmax.

Questa è l'architettura del modello Alexnet. Ha un totale di 62,3 milioni di parametri apprendibili.

Note finali

Per riassumere velocemente l'architettura che abbiamo visto in questo post.

  • Ho 8 livelli con parametri che possono essere appresi.
  • L'input al modello sono immagini RGB.
  • Ho 5 strati di convoluzione con una combinazione di strati di raggruppamento massimo.
  • poi ha 3 strati assolutamente connessi.
  • La funzione di attivazione utilizzata in tutti i livelli è Relu.
  • Usato due strati di abbandono.
  • La funzione di attivazione utilizzata nel livello di output è Softmax.
  • Il numero totale di parametri in questa architettura è 62,3 milioni.

Quindi questo era tutto su Alexnet. Se hai dei dubbi, fammi sapere nei commenti qui sotto.

Iscriviti alla nostra Newsletter

Non ti invieremo posta SPAM. Lo odiamo quanto te.