Objetivo
- Cuando hablamos del modelo Pre-entrenado en el dominio de la Visión por Computadora, Alexnet se perfila como una arquitectura líder.
- Entendamos la arquitectura de Alexnet iniciativa por sus autores.
Introducción
Alexnet ganó el desafío de acreditación visual a gran escala de Imagenet en 2012. El modelo fue propuesto en 2012 en el post de investigación llamado Clasificación de Imagenet con red neuronal de convolución profunda por Alex Krizhevsky y sus colegas.
En este modelo, la profundidad de la red se incrementó en comparación con Lenet-5. En caso de que desees saber más sobre Lenet-5, te recomendaré que consultes el siguiente artículo-
Nota: Si está más interesado en aprender conceptos en un formato audiovisual, tenemos este post completo explicado en el video a continuación. Si no es así, puede seguir leyendo.
Alexnet tiene ocho capas con parámetros que se pueden aprender. El modelo consta de cinco capas con una combinación de agrupación máxima seguida de 3 capas absolutamente conectadas y usan la activación Relu en cada una de estas capas, excepto en la capa de salida.
Descubrieron que el uso de relu como función de activación aceleraba la velocidad del procedimiento de entrenamiento en casi seis veces. Además utilizaron las capas de abandono, que impidieron que su modelo se sobreajustara. Al mismo tiempo, el modelo se entrena en el conjunto de datos de Imagenet. El conjunto de datos de Imagenet tiene casi 14 millones de imágenes en mil clases.
Veamos los detalles arquitectónicos en este post.
Arquitectura Alexnet
Una cosa a prestar atención aquí, dado que Alexnet es una arquitectura profunda, los autores introdujeron relleno para evitar que el tamaño de los mapas de características se redujera drásticamente. La entrada a este modelo son las imágenes de tamaño 227X227X3.
Capas de convolución y agrupación máxima
Después aplicamos la primera capa de convolución con 96 filtros de tamaño 11X11 con stride 4. La función de activación utilizada en esta capa es relu. El mapa de características de salida es 55X55X96.
En caso de que no sepa cómo calcular el tamaño de salida de una capa de convolución
salida = ((Tamaño del filtro de entrada) / zancada) +1
Al mismo tiempo, el número de filtros se convierte en el canal en el mapa de características de salida.
A continuación, tenemos la primera capa de Maxpooling, de tamaño 3X3 y zancada 2. Después, obtenemos el mapa de características resultante con el tamaño 27X27X96.
Después de esto, aplicamos la segunda operación de convolución. Esta vez, el tamaño del filtro se reduce a 5X5 y tenemos 256 filtros de este tipo. La zancada es 1 y el padding 2. La función de activación utilizada es nuevamente relu. Ahora el tamaño de salida que obtenemos es 27X27X256.
De nuevo, aplicamos una capa de agrupación máxima de tamaño 3X3 con zancada 2. El mapa de características resultante tiene la forma 13X13X256.
Ahora aplicamos la tercera operación de convolución con 384 filtros de tamaño 3X3 stride 1 y además padding 1. Nuevamente la función de activación utilizada es relu. El mapa de características de salida tiene la forma 13X13X384.
Después tenemos la cuarta operación de convolución con 384 filtros de tamaño 3X3. La zancada junto con el acolchado es 1. Al mismo tiempo de esa función de activación utilizada está relu. Ahora el tamaño de salida permanece sin cambios, dicho de otra forma, 13X13X384.
Después de esto, tenemos la capa de convolución final de tamaño 3X3 con 256 filtros de este tipo. La zancada y el acolchado se establecen en uno y la función de activación es relu. El mapa de características resultante tiene la forma 13X13X256.
Entonces, si observa la arquitectura hasta el momento, la cantidad de filtros aumenta a medida que profundizamos. Por eso, está extrayendo más funciones a medida que nos adentramos en la arquitectura. Al mismo tiempo, el tamaño del filtro se está reduciendo, lo que significa que el filtro inicial era más grande y, a medida que avanzamos, el tamaño del filtro disminuye, lo que resulta en una disminución en la forma del mapa de características.
A continuación, aplicamos la tercera capa de agrupación máxima de tamaño 3X3 y zancada 2. Dando como consecuencia el mapa de características de la forma 6X6X256.
Capas absolutamente conectadas y abandonadas
Después de esto, tenemos nuestra primera capa de abandono. La tasa de abandono se establece en 0,5.
Después tenemos la primera capa absolutamente conectada con una función de activación relu. El tamaño de la salida es 4096. Después viene otra capa de abandono con la tasa de abandono fijada en 0,5.
Esto seguido de una segunda capa absolutamente conectada con 4096 neuronas y activación de relu.
En conclusión, tenemos la última capa absolutamente conectada o capa de salida con 1000 neuronas, puesto que tenemos 10000 clases en el conjunto de datos. La función de activación utilizada en esta capa es Softmax.
Esta es la arquitectura del modelo Alexnet. Tiene un total de 62,3 millones de parámetros aprendibles.
Notas finales
Para resumir rápidamente la arquitectura que hemos visto en este post.
- Tiene 8 capas con parámetros que se pueden aprender.
- La entrada al modelo son imágenes RGB.
- Tiene 5 capas de convolución con una combinación de capas de agrupación máxima.
- Después tiene 3 capas absolutamente conectadas.
- La función de activación utilizada en todas las capas es Relu.
- Usó dos capas de abandono.
- La función de activación utilizada en la capa de salida es Softmax.
- El número total de parámetros en esta arquitectura es 62,3 millones.
Por lo tanto todo esto se trataba de Alexnet. Si tiene alguna duda, hágamelo saber en los comentarios a continuación.