Uma Visão Geral Simples do Aprendizado Profundo do Perceptron Multicamadas (MLP)

Conteúdo

Este artigo foi publicado como parte do Data Science Blogathon.

Introdução

Comprender esta red nos ayuda a obtener información sobre las razones subyacentes en los modelos avanzados de Deep Learning. El perceptrón multicapa se usa comúnmente en problemas de regresión simple. Porém, los MLP no son ideales para procesar patrones con datos secuenciales y multidimensionales.

🙄 Un perceptrón multicapa se esfuerza por recordar patrones en datos secuenciales, devido a isto, requiere una “gran” cantidad de parametros para procesar datos multidimensionales.

Para datos secuenciales, a RNN son los favoritos porque sus patrones permiten que la red descubra la dependencia 🧠 de los datos históricos, lo que es muy útil para las predicciones. Para datos, como imágenes y videos, CNN sobresalen en la extracción de mapas de recursos para clasificación, O desempenho é exibido como gráficos de dispersão e caixa, entre outras tarefas.
Em alguns casos, una CNN en forma de Conv1D / 1D también se utiliza para redes con datos de entrada secuenciales. Porém, en la mayoría de los modelos de Aprendizagem profunda, MLP, CNN o RNN se combinan para aprovechar al máximo cada uno.

MLP, CNN y RNN no hacen todo
Gran parte de su éxito proviene de identificar su objetivo y la buena elección de algunos parámetros, O que Função de perda, Otimizador, e Regularizador.

También disponemos de datos ajenos al entorno de formación. El papel del regularizador es garantizar que el modelo entrenado se generalice a nuevos datos.

1eloyeyfrblghvzhu345pjw-5950207

Conjunto de dados MNIST

Supongamos que nuestro objetivo es crear una red para identificar números basados ​​en dígitos escritos a mano. Por exemplo, cuando la entrada a la red es una imagen de un número 8, la previsión correspondiente también debe ser 8.
🤷🏻‍♂️ Este es un trabajo básico de clasificación con redes neuronales.

Antes de analizar el modelo MLP, es esencial comprender el conjunto de datos del MNIST. Se utiliza para explicar y validar muchas teorías de aprendizado profundo porque las 70.000 imágenes que contiene son pequeñas pero suficientemente ricas en información;

mninst-digits-6507742

MNIST es una colección de dígitos que van del 0 al 9. Tiene un conjunto de Treinamento a partir de 60.000 imágenes y 10.000 pruebas clasificadas en categorías.

Usar el conjunto de datos MNIST en TensorFlow es simple.

importar entorpecido Como por exemplo
a partir de tensorflow.keras.datasets importar mnist
(x trem, y_train), (x_test, e testar) = mnist.load_data()
a mnist.load_data () El método es conveniente, ya que no es necesario cargar las 70.000 imágenes y sus etiquetas.

Antes de entrar en el clasificador de Perceptrón Multicapa, es fundamental tener en cuenta que, si bien los datos del MNIST constan de tensores bidimensionales, se deben remodelar, según el tipo de camada de entrada.

Se cambia la forma de una imagen en escala de grises de 3 × 3 para las capas de entrada MLP, CNN y RNN:

inputs-nn-8592597

Las etiquetas tienen forma de dígitos, do 0 al 9.

num_labels = len(np.unique(y_train))
imprimir("total de labels:t{}".formato(num_labels))
imprimir("rótulos:ttt{0}".formato(np.unique(y_train)))

⚠️ Esta representación no es adecuada para la capa de pronóstico que genera probabilidad por clase. El formato más adecuado es one-hot, un vector de 10 dimensiones como todos los valores 0, excepto el índice de clase. Por exemplo, si la etiqueta es 4, el vector equivalente es [0,0,0,0, 1, 0,0,0,0,0].

En Deep Learning, los datos se almacenan en un tensor. El término tensor se aplica a un tensor escalar (tensor 0D), vector (tensor 1D), matriz (tensor bidimensional) e tensor multidimensional.

#converter em one-hot
from tensorflow.keras.utils import to_categorical
y_train = to_categorical(y_train)
y_test = to_categorical(e testar)

Nuestro modelo es un MLP, por lo que sus entradas deben ser un tensor 1D. Como tal, x_train y x_test deben transformarse en [60,000, 2828] e [10,000, 2828],

Em suma, el tamaño de -1 significa permitir que la biblioteca calcule la dimensión correcta. En el caso de x_train, isto é 60.000.

image_size = x_train.shape[1] 
input_size = image_size * image_size

print("x trem:t{}".formato(x_train.forma))
imprimir("x_test:tt{}n".formato(x_test.forma))

x_train = np.reshape(x trem, [-1, input_size])
x_train = x_train.astype('float32') / 255

x_test = np.reshape(x_test, [-1, input_size])
x_test = x_test.astype('float32') / 255

imprimir("x trem:t{}".formato(x_train.forma))
imprimir("x_test:tt{}".formato(x_test.forma))
OUTPUT:
x trem:	(60000, 28, 28)
x_test:		(10000, 28, 28)

x trem:	(60000, 784)
x_test:		(10000, 784)

Construyendo el modelo

mlp-nn-3471040
Nuestro modelo consta de tres capas de perceptrón multicapa en una camada densa. El primero y el segundo son idénticos, seguidos de un Unidade linear retificada (retomar) e Sair função de despertar.

1oepahrm74rnnneolprmtaq-9887397

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Ativação, Cair fora

# Parameters
batch_size = 128 # It is the sample size of inputs to be processed at each training stage. 
hidden_units = 256
dropout = 0.45

# Nossa  MLP com ReLU e Dropout 
model = Sequential()

model.add(Denso(hidden_units, input_dim=input_size))
model.add(Ativação('relu'))
model.add(Cair fora(cair fora))

model.add(Denso(hidden_units))
model.add(Ativação('relu'))
model.add(Cair fora(cair fora))

model.add(Denso(num_labels))

Regularização

Una red neuronal tiende a memorizar sus datos de entrenamiento, especialmente si contiene capacidad más que suficiente. Neste caso, la red falla catastróficamente cuando se somete a los datos de prueba.

Este es el caso clásico en el que la red no logra generalizar (Overfitting / Underfitting). Para evitar esta tendencia, el modelo utiliza una capa reguladora. Sair.

1iwqzxhvlvadk6vajjsgxgg-5873176

La idea de Dropout es simple. Dada una tasa de descarte (en nuestro modelo, establecemos = 0,45), la capa elimina aleatoriamente esta fracción de unidades.

Por exemplo, si la primera capa tiene 256 unidades, después de que se aplica el abandono (0.45), só (1 – 0.45) * 255 = 140 unidades participarán en la siguiente capa

La deserción hace que las redes neuronales sean más robustas para los datos de entrada imprevistos, porque la red está entrenada para predecir correctamente, incluso si algunas unidades están ausentes.

⚠️ El abandono solo participa en “Toque” 🤷🏻‍♂️ durante el entrenamiento.

Activación

o Camada de saída tenho 10 unidades, seguidas de una función de activación softmax. As 10 unidades corresponden a las 10 posibles etiquetas, clases o categorías.

La activación de softmax se puede expresar matemáticamente, de acuerdo con la siguiente ecuación:

1ui7n5s48-qnf7bbgfdpioq-7950293

model.add(Ativação('softmax'))
model.summary()
OUTPUT:
Modelo: "sequencial"
_________________________________________________________________
Camada (modelo)                 Parâmetros de forma de saída #   
=================================================================
dense (Denso)                (Nenhum, 256)               200960    
_________________________________________________________________
activation (Ativação)      (Nenhum, 256)               0         
_________________________________________________________________
dropout (Cair fora)            (Nenhum, 256)               0         
_________________________________________________________________
dense_1 (Denso)              (Nenhum, 256)               65792     
_________________________________________________________________
activation_1 (Ativação)    (Nenhum, 256)               0         
_________________________________________________________________
dropout_1 (Cair fora)          (Nenhum, 256)               0         
_________________________________________________________________
denso_2 (Denso)              (Nenhum, 10)                2570      
_________________________________________________________________
activation_2 (Ativação)    (Nenhum, 10)                0         
========================================================== ===============
Params totais: 269,322
Parâmetros treináveis: 269,322
Params não treináveis: 0
_________________________________________________________________

Visualización de modelos

Melhoria

El propósito de la Optimización es minimizar la función de pérdida. La idea es que si la pérdida se reduce a un nivel aceptable, el modelo aprendió indirectamente la función que asigna las entradas a las salidas. Las métricas de rendimiento se utilizan para determinar si su modelo ha aprendido.

model.compile(perda ="categorical_crossentropy", otimizador ="Adão", metrics =['precisão'])
    • Categorical_crossentropy, se utiliza para one-hot
    • La precisión es una buena métrica para las tareas de clasificación.
    • Adam es un algoritmo de optimización que se puede utilizar en lugar del procedimiento clásico de descenso de gradiente estocástico

📌 Dado nuestro conjunto de entrenamiento, la elección de la Função de perda, el optimizador y el regularizador, podemos comenzar a entrenar nuestro modelo.

model.fit(x trem, y_train, epochs=20, batch_size = batch_size)
OUTPUT:
Época 1/20
469/469 [================================] - 1s 3ms/step - perda: 0.4230 - precisão: 0.8690
....
Época 20/20
469/469 [================================] - 2s 4ms / passo - perda: 0.0515 - precisão: 0.9835

Avaliação

Neste ponto, nuestro modelo de clasificador de dígitos MNIST está completo. Su evaluación de desempeño será el siguiente paso para determinar si el modelo entrenado presentará una solución subóptima

_, acc = model.evaluate(x_test,
                        e testar,
                        batch_size = batch_size,
                        verbose = 0)
imprimir("nAccuracy: %.1f%%n" % (100.0 * acc))
OUTPUT:
Precisão: 98.4%

continuará…

Assine a nossa newsletter

Nós não enviaremos SPAM para você. Nós odiamos isso tanto quanto você.