¡5 desafíos del aprendizaje automático!

Share on facebook
Share on twitter
Share on linkedin
Share on telegram
Share on whatsapp

Contenidos

Este artículo fue publicado como parte del Blogatón de ciencia de datos.

Introducción :

En esta publicación, veremos algunos de los principales desafíos que podría enfrentar al desarrollar su modelo de aprendizaje automático. Suponiendo que sepa de qué se trata realmente el aprendizaje automático, por qué la gente lo usa, cuáles son las diferentes categorías de aprendizaje automático y cómo se lleva a cabo el flujo de trabajo general del desarrollo.

96714ex-4237687

Fuente de imagen

¿Qué puede salir mal durante el desarrollo y evitar que obtenga predicciones precisas?

Entonces empecemos, Durante la fase de desarrollo, nuestro enfoque es seleccionar un algoritmo de aprendizaje y entrenarlo con algunos datos, las dos cosas que podrían ser un problema son: mal algoritmo o malos datos, o quizás ambos.

Tabla de contenidos :

  • No hay suficientes datos de entrenamiento.
  • Mala calidad de los datos.
  • Características irrelevantes.
  • Datos de entrenamiento no representativos.
  • Sobreajuste y desajuste.

1. No hay suficientes datos de entrenamiento:

Digamos que para un niño, para que aprenda lo que es una manzana, todo lo que necesita es señalar una manzana y decir manzana repetidamente. Ahora el niño puede reconocer todo tipo de manzanas.

Bueno, el aprendizaje automático todavía no está a ese nivel; se necesitan muchos datos para que la mayoría de los algoritmos funcionen correctamente. Para una tarea simple, se necesitan miles de ejemplos para hacer algo con ella, y para tareas avanzadas como el reconocimiento de imágenes o de voz, es posible que necesite miles de millones (miles de millones) de ejemplos.

2. Mala calidad de los datos:

Obviamente, si sus datos de entrenamiento tienen muchos errores, valores atípicos y ruido, será imposible que su modelo de aprendizaje automático detecte un patrón subyacente adecuado. Por lo tanto, no funcionará bien.

Así que pon cada gramo de esfuerzo en la limpieza de sus datos de entrenamiento. No importa qué tan bueno sea en la selección y el hiper tuning del modelo, esta parte juega un papel importante para ayudarnos a crear un modelo de aprendizaje automático preciso.

“La mayoría de los científicos de datos dedican una parte importante de su tiempo a limpiar datos”.

Hay un par de ejemplos en los que desea limpiar los datos:

  • Si ve que algunas de las instancias son valores atípicos claros, simplemente deséchelas o corríjalas manualmente.
  • Si a algunas de las instancias le falta una característica como (por ejemplo, el 2% de los usuarios no especificó su edad), puede ignorar estas instancias o completar los valores faltantes por edad media, o entrenar un modelo con la característica y entrenar uno sin él para llegar a una conclusión.

3. Características irrelevantes:

«Basura entra, basura sale (GIGO)».

18527gigo-2316413

Fuente de imagen

En la imagen de arriba, podemos ver que incluso si nuestro modelo es «IMPRESIONANTE» y lo alimentamos con datos basura, el resultado también será basura (salida). Nuestros datos de entrenamiento siempre deben contener más relevantes y menos a ninguna características irrelevantes.

El mérito de un proyecto de aprendizaje automático exitoso se debe a la creación de un buen conjunto de características en las que se ha entrenado (a menudo denominado ingeniería de características ), que incluye la selección de funciones, la extracción y la creación de nuevas funciones, que son otros temas interesantes que se tratarán en los próximos blogs.

4. Datos de formación no representativos:

Para asegurarnos de que nuestro modelo se generalice bien, tenemos que asegurarnos de que nuestros datos de entrenamiento sean representativos de los nuevos casos a los que queremos generalizar.

Si entrena nuestro modelo mediante el uso de un conjunto de entrenamiento no representativo, no será preciso en las predicciones. sesgado contra uno clase o grupo.

Para EG, digamos que está tratando de construir un modelo que reconozca el género musical. Una forma de crear tu conjunto de entrenamiento es buscarlo en YouTube y usar los datos resultantes. Aquí asumimos que el motor de búsqueda de YouTube proporciona datos representativos, pero en realidad, la búsqueda estará sesgada hacia artistas populares y tal vez incluso los artistas que son populares en su ubicación (si vive en la India, obtendrá la música de Arijit Singh, Sonu Nigam o etc.).

Por lo tanto, use datos representativos durante el entrenamiento, para que su modelo no esté sesgado entre una o dos clases cuando funcione con datos de prueba.

5. Sobreajuste y desajuste:

¿Qué es el sobreajuste?

39381of-5809328

Fuente de imagen

Comencemos con un ejemplo, digamos que un día estás caminando por la calle para comprar algo, un perro sale de la nada y le ofreces algo de comer, pero en lugar de comer comienza a ladrar y perseguirte, pero de alguna manera estás a salvo. Después de este incidente en particular, podría pensar que no vale la pena tratar bien a todos los perros.

Así que esto sobregeneralización es lo que los humanos hacemos la mayor parte del tiempo y, lamentablemente, el modelo de aprendizaje automático también hace lo mismo si no se presta atención. En el aprendizaje automático, lo llamamos sobreajuste, es decir, el modelo funciona bien en los datos de entrenamiento, pero no se generaliza bien.

El sobreajuste ocurre cuando nuestro modelo es demasiado complejo.

Cosas que podemos hacer para superar este problema:

  1. Simplifique el modelo seleccionando uno con menos parámetros.
  2. Reduciendo la cantidad de atributos en los datos de entrenamiento.
  3. Restringir el modelo.
  4. Reúna más datos de entrenamiento.
  5. Reducir el ruido.

¿Qué es el desajuste?

65316uf-6217837

Fuente de imagen

Sí, lo has adivinado, el ajuste perfecto es lo opuesto al ajuste excesivo. Ocurre cuando nuestro modelo es demasiado simple para aprender algo de los datos. Para EG, usa un modelo lineal en un conjunto con multicolinealidad, seguro que no se ajustará y las predicciones también serán inexactas en el conjunto de entrenamiento.

Cosas que podemos hacer para superar este problema:

  1. Seleccione un modelo más avanzado, uno con más parámetros.
  2. Entrene en funciones mejores y relevantes.
  3. Reducir las limitaciones.

Conclusión:

El aprendizaje automático se trata de mejorar las máquinas mediante el uso de datos para que no necesitemos codificarlos explícitamente. El modelo no funcionará bien si los datos de entrenamiento son pequeños o ruidosos con errores y valores atípicos, o si los datos no son representativos (resulta en sesgos), constan de características irrelevantes (basura dentro, basura fuera) y, por último, no son demasiado simples ( resulta en un ajuste insuficiente) ni demasiado complejo (resulta en un ajuste excesivo). Después de haber entrenado un modelo teniendo en cuenta los parámetros anteriores, no espere que su modelo simplemente se generalice bien a los nuevos casos que pueda necesitar. evaluarlo y ajustarlo, ¿como hacer eso? Estén atentos, este es un tema que se tratará en los próximos blogs.

Espero que este artículo le haya ayudado a comprender mejor este concepto. Deje un comentario a continuación si tiene alguna pregunta de seguimiento e intentaré responderla.

Gracias,

Karan Amal Pradhan.

Los medios que se muestran en este artículo no son propiedad de Analytics Vidhya y se utilizan a discreción del autor.

Suscribite a nuestro Newsletter

No te enviaremos correo SPAM. Lo odiamos tanto como tú.