Red neuronal artificial | Guía para principiantes de ANN

Contenidos

Este artículo fue publicado como parte del Blogatón de ciencia de datos

Introducción

máquina. Está inspirado en el funcionamiento de un cerebro humano y, por lo tanto, es un conjunto de algoritmos de redes neuronales que intenta imitar el funcionamiento de un cerebro humano y aprender de las experiencias.

En este artículo, vamos a aprender cómo funciona una red neuronal básica y cómo se mejora a sí misma para hacer las mejores predicciones.

Tabla de contenidos

  1. Redes neuronales y sus componentes
  2. Perceptrón y perceptrón multicapa
  3. Trabajo paso a paso de la red neuronal
  4. Propagación hacia atrás y cómo funciona
  5. Breve acerca de las funciones de activación

Redes neuronales artificiales y sus componentes

Redes neuronales es un sistema de aprendizaje computacional que utiliza una red de funciones para comprender y traducir una entrada de datos de una forma en una salida deseada, normalmente en otra forma. El concepto de red neuronal artificial se inspiró en la biología humana y la forma en que neuronas del cerebro humano funcionan juntos para comprender las entradas de los sentidos humanos.

En palabras simples, las redes neuronales son un conjunto de algoritmos que intenta reconocer los patrones, las relaciones y la información de los datos a través del proceso que se inspira y funciona como el cerebro / la biología humanos.

Componentes / Arquitectura de la red neuronal

Una red neuronal simple consta de tres componentes :

  • Capa de entrada
  • Capa oculta
  • Capa de salida
21246neural20network-9773225

Fuente: Wikipedia

Capa de entrada: También conocidos como nodos de entrada, son las entradas / información del mundo exterior que se proporciona al modelo para aprender y extraer conclusiones. Los nodos de entrada pasan la información a la siguiente capa, es decir, capa oculta.

Capa oculta: La capa oculta es el conjunto de neuronas donde se realizan todos los cálculos sobre los datos de entrada. Puede haber cualquier cantidad de capas ocultas en una red neuronal. La red más simple consta de una sola capa oculta.

Capa de salida: La capa de salida es la salida / conclusiones del modelo derivadas de todos los cálculos realizados. Puede haber uno o varios nodos en la capa de salida. Si tenemos un problema de clasificación binaria, el nodo de salida es 1, pero en el caso de clasificación de clases múltiples, los nodos de salida pueden ser más de 1.

Perceptrón y perceptrón multicapa

Perceptrón es una forma simple de red neuronal y consta de una sola capa donde se realizan todos los cálculos matemáticos.

16429perceptron-3926699

Fuente: kindsonthegenius.com

Mientras que, Perceptrón multicapa también conocido como Redes neuronales artificiales Consiste en más de una percepción que se agrupa para formar una red neuronal de múltiples capas.

79231multi20layer20perceptron-7901886

Fuente: Medio

En la imagen de arriba, la red neuronal artificial consta de cuatro capas interconectadas entre sí:

  • Una capa de entrada, con 6 nodos de entrada.
  • Capa 1 oculta, con 4 nodos ocultos / 4 perceptrones
  • Capa oculta 2, con 4 nodos ocultos
  • Capa de salida con 1 nodo de salida

Paso a paso Working de la red neuronal artificial

14147ann-9883294

Fuente: Xenonstack.com

  1. En el primer paso Las unidades de entrada se pasan, es decir, los datos se pasan con algunos pesos adjuntos a la capa oculta.. Podemos tener cualquier cantidad de capas ocultas. En la imagen de arriba, las entradas x1,X2,X3,….Xnorte esta pasado.

  2. Cada capa oculta consta de neuronas. Todas las entradas están conectadas a cada neurona.

  3. Después de transmitir las entradas, todo el cálculo se realiza en la capa oculta (Óvalo azul en la imagen)

El cálculo realizado en capas ocultas se realiza en dos pasos que son los siguientes :

  • En primer lugar, todas las entradas se multiplican por sus pesos. El peso es el gradiente o coeficiente de cada variable. Muestra la fuerza de la entrada particular. Después de asignar los pesos, se agrega una variable de sesgo. Parcialidad es una constante que ayuda al modelo a encajar de la mejor manera posible.

Z1 = W1*En1 + W2*En2 + W3*En3 + W4*En4 + W5*En5 + b

W1, W2, W3, W4, W5 son los pesos asignados a las entradas In1, En2, En3, En4, En5, y b es el sesgo.

  • Luego, en el segundo paso, el La función de activación se aplica a la ecuación lineal Z1. La función de activación es una transformación no lineal que se aplica a la entrada antes de enviarla a la siguiente capa de neuronas. La importancia de la función de activación es inculcar la no linealidad en el modelo.

Hay varias funciones de activación que se enumerarán en la siguiente sección.

  1. Todo el proceso descrito en el punto 3 se realiza en cada capa oculta. Después de pasar por cada capa oculta, pasamos a la última capa, es decir, nuestra capa de salida que nos da la salida final.

El proceso explicado anteriormente se conoce como propagación de reenvío.

  1. Después de obtener las predicciones de la capa de salida, se calcula el error, es decir, la diferencia entre la salida real y la prevista.

Si el error es grande, entonces se toman los pasos para minimizar el error y con el mismo propósito, Se realiza la propagación hacia atrás.

¿Qué es la propagación hacia atrás y cómo funciona?

La propagación inversa es el proceso de actualizar y encontrar los valores óptimos de pesos o coeficientes que ayuda al modelo a minimizar el error, es decir, la diferencia entre los valores reales y predichos.

Pero aquí está la pregunta: ¿Cómo se actualizan los pesos y se calculan los nuevos pesos?

Los pesos se actualizan con la ayuda de optimizadores.. Los optimizadores son los métodos / formulaciones matemáticas para cambiar los atributos de las redes neuronales, es decir, los pesos para minimizar el error.

Propagación hacia atrás con pendiente descendente

Gradient Descent es uno de los optimizadores que ayuda a calcular los nuevos pesos. Entendamos paso a paso cómo Gradient Descent optimiza la función de costo.

En la imagen de abajo, la curva es nuestra curva de función de costo y nuestro objetivo es minimizar el error de tal manera que Jmin es decir, se alcanzan los mínimos globales.

22880gd-7826305

Fuente: Quora

Pasos para alcanzar los mínimos globales:

  1. Primero, los pesos se inicializan aleatoriamente es decir, el valor aleatorio del peso y las intersecciones se asignan al modelo mientras que la propagación hacia adelante y los errores se calculan después de todo el cálculo. (Como se discutió anteriormente)

  2. Entonces el el gradiente se calcula, es decir, derivada del error con ponderaciones actuales

  3. Luego, los nuevos pesos se calculan utilizando la fórmula siguiente, donde a es la tasa de aprendizaje que es el parámetro también conocido como tamaño de paso para controlar la velocidad o los pasos de la retropropagación. Proporciona un control adicional sobre qué tan rápido queremos movernos en la curva para alcanzar los mínimos globales.

45538bp_update_formula-5431760

Fuente: hmkcode.com

4.Este proceso de calcular los nuevos pesos, luego los errores de los nuevos pesos y luego la actualización de los pesos. continúa hasta que alcanzamos los mínimos globales y la pérdida se minimiza.

Un punto a tener en cuenta aquí es que la tasa de aprendizaje, es decir, a en nuestra actualización de peso La ecuación debe elegirse sabiamente. La tasa de aprendizaje es la cantidad de cambio o el tamaño del paso que se toma para alcanzar los mínimos globales. No debe ser muy pequeño ya que llevará tiempo converger, así como no debe ser muy grande que no alcanza los mínimos globales en absoluto. Por tanto, la tasa de aprendizaje es el hiperparámetro que tenemos que elegir en función del modelo.

57456lr1-9140536

Fuente: Educative.io

Para conocer las matemáticas detalladas y la regla de la cadena de retropropagación, consulte el adjunto tutorial.

Breve acerca de las funciones de activación

Funciones de activación se adjuntan a cada neurona y son ecuaciones matemáticas que determinan si una neurona debe activarse o no en función de si la entrada de la neurona es relevante para la predicción del modelo o no. El propósito de la función de activación es introducir la no linealidad en los datos.

Varios tipos de funciones de activación son:

  • Función de activación sigmoidea
  • Función de activación de TanH / Tangente hiperbólica
  • Función de unidad lineal rectificada (ReLU)
  • ReLU con fugas
  • Softmax

Consulte este blog para obtener una explicación detallada de las funciones de activación.

Notas finales

Aquí concluyo mi explicación paso a paso de la primera Red Neural de Aprendizaje Profundo que es ANA. Traté de explicar el proceso de Reenvío de propagación y Retropropagación de la manera más simple posible. Espero que haya valido la pena leer este artículo 🙂

Por favor, siéntete libre de conectarte conmigo en LinkedIn y comparta sus valiosos aportes. Por favor, consulte mis otros artículos aquí.

Sobre el Autor

Soy Deepanshi Dhingra, actualmente trabajo como investigador de ciencia de datos y poseo conocimientos de análisis, análisis de datos exploratorios, aprendizaje automático y aprendizaje profundo.

Los medios que se muestran en este artículo sobre la red neuronal artificial no son propiedad de DataPeaker y se utilizan a discreción del autor.

Suscribite a nuestro Newsletter

No te enviaremos correo SPAM. Lo odiamos tanto como tú.