Big Data

5 défis de l'apprentissage automatique!

Cet article a été publié dans le cadre du Blogathon sur la science des données.

introduction :

Dans ce billet, nous examinerons certains des principaux défis auxquels vous pourriez être confronté lors du développement de votre modèle d'apprentissage automatique. En supposant que vous sachiez en quoi consiste réellement l'apprentissage automatique, pourquoi les gens l'utilisent, quelles sont les différentes catégories d'apprentissage automatique et comment le flux de travail de développement global est effectué.

Source de l'image

Qu'est-ce qui peut mal tourner pendant le développement et vous empêcher d'obtenir des prédictions précises?

Alors commençons, Pendant la phase de développement, notre approche consiste à sélectionner un algorithme d'apprentissage et à l'entraîner avec des données, les deux choses qui pourraient être un problème sont: mauvais algorithme O mauvaises données, O peut-être les deux.

Table des matières :

Pas assez de données d'entraînement.
Mauvaise qualité des données.
Caractéristiques non pertinentes.
Données d'entraînement non représentatives.
Surajustement et inadéquation.

1. Pas assez de données d'entraînement:

Dire pour un enfant, pour qu'il apprenne ce qu'est une pomme, tout ce dont vous avez besoin est de pointer une pomme et de dire pomme à plusieurs reprises. Maintenant, l'enfant peut reconnaître toutes sortes de pommes.

Bon, l'apprentissage automatique n'est pas encore à ce niveau; beaucoup de données sont nécessaires pour que la plupart des algorithmes fonctionnent correctement. Pour une tâche simple, il faut des milliers d'exemples pour en faire quelque chose, et pour des tâches avancées telles que la reconnaissance d'image ou de parole, vous aurez peut-être besoin de milliards (milliers de millions) d'exemples.

2. Mauvaise qualité des données:

Évidemment, si vos données d'entraînement contiennent beaucoup d'erreurs, valeurs aberrantes et bruit, il sera impossible pour votre modèle d'apprentissage automatique de détecter un modèle sous-jacent approprié. Donc, ça ne marchera pas bien.

Mettez donc chaque once d'effort dans le nettoyage de vos données d'entraînement. Peu importe à quel point je suis bon dans la sélection et l'hyper réglage du modèle, cette partie joue un rôle important en nous aidant à créer un modèle d'apprentissage automatique précis.

"La plupart des data scientists passent une grande partie de leur temps à nettoyer les données".

Il y a quelques exemples où vous voulez nettoyer les données:

Si vous voyez que certaines des instances sont des valeurs aberrantes claires, il suffit de les jeter ou de les corriger manuellement.
Si certaines instances manquent une fonctionnalité telle que (par exemple, les 2% des utilisateurs n'ont pas précisé leur âge), vous pouvez ignorer ces instances ou renseigner les valeurs manquantes par âge moyen, ou entraînez un modèle avec la caractéristique et entraînez-en un sans pour parvenir à une conclusion.

3. Caractéristiques non pertinentes:

“Les ordures entrent, les ordures sortent (GIGO)”.

Source de l'image

Dans l'image ci-dessus, nous pouvons voir que même si notre modèle est “IMPRESSIONNANT” et nous l'alimentons en données indésirables, le résultat sera aussi des ordures (Sortir). Nos données d'entraînement doivent toujours contenir le plus pertinent Oui moins ou pas de fonctionnalités non pertinentes.

Le mérite d'un projet d'apprentissage automatique réussi est dû à la création d'un bon ensemble de fonctionnalités sur lesquelles vous avez été formé (souvent appelé ingénierie des fonctionnalités ), y compris la sélection de fonctionnalités, extraire et créer de nouvelles fonctions, qui sont d'autres sujets intéressants qui seront abordés dans les prochains blogs.

4. Données d'entraînement non représentatives:

Pour s'assurer que notre modèle se généralise bien, nous devons nous assurer que nos données d'entraînement sont représentatives des nouveaux cas auxquels nous voulons généraliser.

Si vous entraînez notre modèle à l'aide d'un ensemble d'entraînement non représentatif, ne sera pas précis dans les prédictions. biaisé contre un classe ou groupe.

à EG, disons que vous essayez de construire un modèle qui reconnaisse le genre musical. Une façon de créer votre ensemble d'entraînement est de le rechercher sur YouTube et d'utiliser les données résultantes. Ici, nous supposons que le moteur de recherche YouTube fournit des données représentatives, mais en réalité, la recherche sera biaisée en faveur des artistes populaires et peut-être même des artistes populaires dans votre région (si vous habitez en Inde, vous obtiendrez la musique de Arijit Singh, Sonu Nigam ou etc.).

Donc, utiliser des données représentatives pendant la formation, votre modèle n'est donc pas biaisé entre une ou deux classes lorsque vous travaillez avec des données de test.

5. Surajustement et inadéquation:

Qu'est-ce que le surapprentissage?

Source de l'image

Commençons par un exemple, disons qu'un jour tu marches dans la rue pour acheter quelque chose, un chien sort de nulle part et vous lui offrez à manger, mais au lieu de manger il se met à aboyer et à te poursuivre, mais d'une manière ou d'une autre tu es en sécurité. Après cet incident particulier, vous pourriez penser que cela ne vaut pas la peine de bien traiter tous les chiens.

Donc ça généralisation excessive C'est ce que nous, les humains, faisons la plupart du temps et, Malheureusement, le modèle d'apprentissage automatique fait également la même chose si vous ne faites pas attention. En apprentissage automatique, nous l'appelons surapprentissage, c'est-à-dire, le modèle fonctionne bien sur les données d'entraînement, mais ça ne généralise pas bien.

Le surapprentissage se produit lorsque notre modèle est trop complexe.

Ce que nous pouvons faire pour surmonter ce problème:

Simplifiez le modèle en en sélectionnant un avec moins de paramètres.
Réduire le nombre d'attributs dans les données d'entraînement.
Contraindre le modèle.
Rassemblez plus de données d'entraînement.
Reduire le bruit.

Qu'est-ce que l'inadéquation?

Source de l'image

Oui, tu l'as deviné, l'ajustement serré est l'opposé de l'ajustement excessif. Se produit lorsque notre modèle est trop simple pour apprendre quoi que ce soit à partir des données. à EG, utiliser un modèle linéaire sur un ensemble avec multicolinéarité, cela ne conviendra certainement pas et les prédictions seront également inexactes dans l'ensemble d'entraînement.

Ce que nous pouvons faire pour surmonter ce problème:

Sélectionnez un modèle plus avancé, un avec plus de paramètres.
Former sur des fonctions meilleures et pertinentes.
Réduire les limitations.

conclusion:

L'apprentissage automatique consiste à améliorer les machines en utilisant des données afin que nous n'ayons pas besoin de les coder explicitement. Le modèle ne fonctionnera pas bien si les données d'apprentissage sont petites ou bruyantes avec des erreurs et des valeurs aberrantes, ou si les données ne sont pas représentatives (entraîne des biais), se composent de caractéristiques non pertinentes (poubelle à l'intérieur, poubelle) Oui, finalement, ils ne sont pas trop simples ( entraîne un ajustement insuffisant) pas trop complexe (entraîne un surajustement). Après avoir entraîné un modèle en tenant compte des paramètres ci-dessus, ne vous attendez pas à ce que votre modèle se généralise bien aux nouveaux cas dont vous pourriez avoir besoin. l'évaluer et l'ajuster, comment faire ça? Faites attention, c'est un sujet qui sera traité dans les prochains blogs.

J'espère que cet article vous a aidé à mieux comprendre ce concept. Laissez un commentaire ci-dessous si vous avez des questions de suivi et j'essaierai d'y répondre..

Merci,

Karan Amal Pradhan.

Les supports présentés dans cet article ne sont pas la propriété d'Analytics Vidhya et sont utilisés à la discrétion de l'auteur..