obbiettivo
- Quando si parla del modello Pre-addestrato nel dominio della Computer Vision, Alexnet sta emergendo come un'architettura leader.
- Comprendiamo l'architettura dell'iniziativa Alexnet dai suoi autori.
introduzione
Alexnet ha vinto la sfida di accreditamento visivo su larga scala di Imagenet in 2012. Il modello è stato proposto in 2012 nel posto di ricerca chiamato Classificazione Imagenet con rete neurale a convoluzione profonda di Alex Krizhevsky e colleghi.
In questo modello, profondità di rete aumentata rispetto a Lenet-5. Nel caso volessi saperne di più su Lenet-5, Ti consiglio di consultare il seguente articolo-
Nota: Se sei più interessato ad apprendere concetti in un formato audiovisivo, abbiamo questo post completo spiegato nel video qui sotto. Se non è così, puoi continuare a leggere.
Alexnet tiene ocho capas con parametriIl "parametri" sono variabili o criteri che vengono utilizzati per definire, misurare o valutare un fenomeno o un sistema. In vari campi come la statistica, Informatica e Ricerca Scientifica, I parametri sono fondamentali per stabilire norme e standard che guidano l'analisi e l'interpretazione dei dati. La loro corretta selezione e gestione sono fondamentali per ottenere risultati accurati e pertinenti in qualsiasi studio o progetto.... que se pueden aprender. Il modello è composto da cinque strati con una combinazione di raggruppamento massimo seguito da 3 capas absolutamente conectadas y usan la activación riprendereLa función de activación ReLU (Rectified Linear Unit) es ampliamente utilizada en redes neuronales debido a su simplicidad y eficacia. Definida como ( F(X) = max(0, X) ), ReLU permite que las neuronas se activen solo cuando la entrada es positiva, lo que contribuye a mitigar el problema del desvanecimiento del gradiente. Su uso ha demostrado mejorar el rendimiento en diversas tareas de aprendizaje profundo, haciendo de ReLU una opción... en cada una de estas capas, excepto en la capa de salidaIl "capa de salida" es un concepto utilizado en el ámbito de la tecnología de la información y el diseño de sistemas. Se refiere a la última capa de un modelo de software o arquitectura que se encarga de presentar los resultados al usuario final. Esta capa es crucial para la experiencia del usuario, ya que permite la interacción directa con el sistema y la visualización de datos procesados.....
Descubrieron que el uso de relu como funzione svegliaLa funzione di attivazione è un componente chiave nelle reti neurali, poiché determina l'output di un neurone in base al suo input. Il suo scopo principale è quello di introdurre non linearità nel modello, Consentendo di apprendere modelli complessi nei dati. Ci sono varie funzioni di attivazione, come il sigma, ReLU e tanh, Ognuno con caratteristiche particolari che influiscono sulle prestazioni del modello in diverse applicazioni.... aceleraba la velocidad del procedimiento de addestramentoLa formazione è un processo sistematico volto a migliorare le competenze, conoscenze o abilità fisiche. Viene applicato in vari ambiti, come lo sport, Formazione e sviluppo professionale. Un programma di allenamento efficace include la pianificazione degli obiettivi, Pratica regolare e valutazione dei progressi. L'adattamento alle esigenze individuali e la motivazione sono fattori chiave per ottenere risultati di successo e sostenibili in qualsiasi disciplina.... en casi seis veces. Hanno anche usato gli strati di abbandono, che ha impedito il sovradattamento del tuo modello. Allo stesso tempo, il modello è addestrato sul set di dati Imagenet. Il set di dati Imagenet è quasi 14 milioni di immagini in mille classi.
Vediamo i dettagli architettonici in questo post.
Architettura Alexnet
Una cosa a cui prestare attenzione qui, poiché Alexnet è un'architettura profonda, gli autori hanno introdotto il padding per evitare che la dimensione delle mappe delle caratteristiche fosse drasticamente ridotta. L'input di questo modello sono le immagini di dimensioni 227X227X3.
Strati di convoluzione e raggruppamento massimo
Quindi applichiamo il primo strato di convoluzione con 96 Filtri formato 11X11 con passo 4. La funzione di attivazione utilizzata in questo livello è relu. La mappa delle caratteristiche di uscita è 55X55X96.
Nel caso in cui non sai come calcolare la dimensione di output di un livello di convoluzione
uscita = ((Dimensione del filtro di ingresso) / passo) +1
Allo stesso tempo, il numero di filtri diventa il canale nella mappa delle caratteristiche di uscita.
Prossimo, abbiamo il primo strato di Maxpooling, Dimensioni e passo 3X3 2. Dopo, otteniamo la feature map risultante con la dimensione 27X27X96.
Dopo di che, applichiamo la seconda operazione di convoluzione. Questa volta, la dimensione del filtro è ridotta a 5X5 e abbiamo 256 filtri di questo tipo. Il passo è 1 e l'imbottitura 2. La funzione di attivazione utilizzata è di nuovo relu. Ora la dimensione dell'output che otteniamo è 27X27X256.
Ancora, applichiamo una mano di raggruppamento massimo di dimensioni 3X3 con passo 2. La mappa delle caratteristiche risultante ha la forma 13X13X256.
Ora applichiamo la terza operazione di convoluzione con 384 Filtri per le dimensioni del passo 3X3 1 e anche imbottitura 1. Anche in questo caso la funzione di attivazione utilizzata è relu. La mappa delle funzionalità di output ha la forma 13X13X384.
Allora abbiamo la quarta operazione di convoluzione con 384 Filtri di dimensioni 3X3. Il passo lungo con l'imbottitura è 1. Allo stesso tempo, la funzione di attivazione utilizzata è rilu. Ora la dimensione dell'output rimane invariata, In altre parole, 13X13X384.
Dopo di che, abbiamo lo strato di convoluzione di dimensioni 3X3 finale con 256 filtri di questo tipo. Stride e padding sono impostati su uno e la funzione trigger è relu. La mappa delle caratteristiche risultante ha la forma 13X13X256.
Quindi, se guardi l'architettura finora, la cantidad de filtros aumenta a misuraIl "misura" È un concetto fondamentale in diverse discipline, che si riferisce al processo di quantificazione delle caratteristiche o delle grandezze degli oggetti, fenomeni o situazioni. In matematica, Utilizzato per determinare le lunghezze, Aree e volumi, mentre nelle scienze sociali può riferirsi alla valutazione di variabili qualitative e quantitative. L'accuratezza della misurazione è fondamentale per ottenere risultati affidabili e validi in qualsiasi ricerca o applicazione pratica.... que profundizamos. Perché, sta estraendo più funzionalità man mano che passiamo all'architettura. Allo stesso tempo, la dimensione del filtro si sta riducendo, il che significa che il filtro iniziale era più grande e, mentre andiamo, la dimensione del filtro diminuisce, con conseguente diminuzione della forma della mappa delle caratteristiche.
Prossimo, applichiamo il terzo strato di raggruppamento massimo di dimensioni 3X3 e passo 2. Risultante nella mappa delle caratteristiche della forma 6X6X256.
Strati assolutamente connessi e abbandonati
Dopo di che, abbiamo il nostro primo strato di abbandono. Il tasso di abbandono è impostato su 0,5.
Después tenemos la primera capa absolutamente conectada con una función de activación reluLa función de activación ReLU (Rectified Linear Unit) es ampliamente utilizada en redes neuronales debido a su simplicidad y eficacia. è definito come ( F(X) = max(0, X) ), lo que significa que produce una salida de cero para valores negativos y un incremento lineal para valores positivos. Su capacidad para mitigar el problema del desvanecimiento del gradiente la convierte en una opción preferida en arquitecturas profundas..... La dimensione dell'output è 4096. Poi arriva un altro livello di abbandono con il tasso di abbandono impostato su 0,5.
Questo seguito da un secondo livello assolutamente connesso con 4096 neuroni e attivazione relu.
In conclusione, abbiamo l'ultimo livello o livello di output assolutamente connesso con 1000 neuroni, dal momento che abbiamo 10000 classi nel set di dati. La funzione di attivazione utilizzata in questo livello è Softmax.
Questa è l'architettura del modello Alexnet. Ha un totale di 62,3 milioni di parametri apprendibili.
Note finali
Per riassumere velocemente l'architettura che abbiamo visto in questo post.
- Ho 8 livelli con parametri che possono essere appresi.
- L'input al modello sono immagini RGB.
- Ho 5 strati di convoluzione con una combinazione di strati di raggruppamento massimo.
- poi ha 3 strati assolutamente connessi.
- La funzione di attivazione utilizzata in tutti i livelli è Relu.
- Usato due strati di abbandono.
- La funzione di attivazione utilizzata nel livello di output è Softmax.
- Il numero totale di parametri in questa architettura è 62,3 milioni.
Quindi questo era tutto su Alexnet. Se hai dei dubbi, fammi sapere nei commenti qui sotto.