Big Data

Surapprentissage et inadéquation dans l'apprentissage automatique

Le défi de l'inadéquation et du surapprentissage dans l'apprentissage automatique

Inévitablement, vous serez confronté à cette question dans un entretien avec un data scientist:

Pouvez-vous expliquer ce qu'est l'inadéquation et le surajustement dans le contexte de l'apprentissage automatique ?? Décrivez-le d'une manière que même une personne non technique peut comprendre.

Votre capacité à expliquer cela de manière non technique et facile à comprendre pourrait bien vous convenir pour le rôle de la science des données !!

Même lorsque nous travaillons sur un apprentissage automatique projet, nous sommes souvent confrontés à des situations où nous rencontrons des performances inattendues ou des différences de taux d'erreur entre l'ensemble d'apprentissage et l'ensemble de test (comme il est montré dans ce qui suit). Comment un modèle peut-il si bien fonctionner dans l'ensemble d'apprentissage et si mal dans l'ensemble de test?

Cela arrive très fréquemment chaque fois que je travaille avec des modèles prédictifs basés sur des arbres. En raison du fonctionnement des algorithmes, Vous pouvez imaginer à quel point il est difficile d'éviter de tomber dans le piège du surapprentissage !!

En même temps, cela peut être assez écrasant lorsque nous ne pouvons pas trouver la raison sous-jacente pour laquelle notre modèle prédictif affiche ce comportement anormal.

C'est mon expérience personnelle: demandez à n'importe quel data scientist chevronné à ce sujet, ils commencent généralement parler d'une gamme de termes fantaisistes comme surapprentissage, inadaptation, biais et variance. Mais on parle peu de l'intuition derrière ces concepts d'apprentissage automatique. rectifions cela, d'accord?

Prenons un exemple pour comprendre le sous-apprentissage vs le surapprentissage

Je veux expliquer ces concepts en utilisant un exemple du monde réel. Beaucoup de gens parlent de l'angle théorique, mais je pense que ce n'est pas assez: nous devons visualiser comment le sous-ajustement et le sur-ajustement fonctionnent réellement.

Ensuite, retournons à nos jours de collège pour cela.

Considérons un cours de mathématiques composé de 3 élèves et un enseignant.

À présent, dans n'importe quelle classe, nous pouvons largement diviser les étudiants en 3 catégories. Nous en parlerons un par un.

Disons que l'élève A ressemble à un élève qui n'aime pas les maths. Il ne s'intéresse pas à ce qui est enseigné en classe et c'est pourquoi il ne prête pas beaucoup d'attention au professeur et au contenu qu'il enseigne..

Considérons l'étudiant B. Est l'étudiant le plus compétitif qui se concentre sur la mémorisation de chaque question enseignée en classe plutôt que de se concentrer sur les concepts clés. Simplement, pas intéressé à apprendre l'approche de résolution de problèmes.

En résumé, nous avons l'étudiant idéal C. Elle est purement intéressée à apprendre les concepts clés et l'approche de résolution de problèmes en cours de mathématiques plutôt que de simplement mémoriser les solutions présentées..

Nous savons tous par expérience ce qui se passe dans une salle de classe. L'enseignant donne d'abord des conférences et enseigne aux étudiants les problèmes et la façon de les résoudre. A la fin de la journee, l'enseignant passe simplement un test basé sur ce qu'il a enseigné en classe.

L'obstacle vient des tests semestriels3 que l'école met en place. C'est là que de nouvelles questions se posent (données invisibles). Les élèves n'ont jamais visualisé ces questions auparavant et ils ne les ont certainement pas résolues en classe.. Sonne familier?

Ensuite, Discutons de ce qui se passe lorsque l'enseignant passe un test en classe à la fin de la journée:

Étudiant A, qu'il était distrait dans son propre monde, vous venez de deviner les réponses et avez environ un 50% notes dans le test.
D'autre part, l'élève qui a mémorisé chaque question enseignée en classe a pu répondre à presque toutes les questions par cœur et, pour cela, Avoir un 98% notes sur le test de classe.
Pour l'étudiant C, effectivement résolu toutes les questions en utilisant l'approche de résolution de problèmes que vous avez apprise en classe et obtenu un score de 92%.

On peut clairement en déduire que l'étudiant qui mémorise tout simplement obtient de meilleurs résultats sans trop de difficulté..

Maintenant, voici la torsion. Voyons aussi ce qui se passe pendant le test mensuel, lorsque les élèves doivent faire face à de nouvelles questions inconnues que l'enseignant n'enseigne pas en classe.

Dans le cas de l'étudiant A, les choses n'ont pas beaucoup changé et il répond toujours correctement aux questions au hasard ~ 50% du temps.
Dans le cas de l'étudiant B, votre score a considérablement baissé. Pouvez-vous deviner pourquoi? C'est parce qu'il a toujours mémorisé les problèmes qui lui ont été enseignés en classe, mais ce quiz mensuel contenait des questions que je n'avais jamais vues auparavant. Pour cela, leurs performances ont considérablement baissé.
Dans le cas de l'étudiant C, le score est resté à peu près le même. C'est parce qu'il s'est concentré sur l'apprentissage de l'approche de résolution de problèmes et, pour cela, a été en mesure d'appliquer les concepts que vous avez appris pour résoudre les questions inconnues.

Comment cela est-il lié à l'inadéquation et au surajustement dans l'apprentissage automatique ??

Vous vous demandez peut-être comment cet exemple est lié au problème que nous avons rencontré tout au long de la formation et aux résultats du test du classificateur d'arbre de décision.. Bonne question!

Ensuite, Travaillons sur la connexion de cet exemple avec les résultats du classificateur d'arbre de décision que je vous ai montré précédemment..

Premier, le travail en classe et le test en classe ressemblent aux données d'entraînement et au pronostic sur les données d'entraînement elles-mêmes, respectivement. D'autre part, le test semestriel représente l'ensemble des tests de nos données que nous mettons de côté avant d'entraîner notre modèle (ou des données non vues dans un projet d'apprentissage automatique du monde réel).

À présent, rappelez-vous notre classificateur d'arbre de décision que j'ai mentionné précédemment. A donné un score parfait sur l'ensemble d'entraînement, mais j'ai eu des problèmes avec l'ensemble de test. En comparant cela aux exemples d'étudiants que nous venons de discuter, le classificateur fait une analogie avec l'étudiant B qui a essayé de mémoriser chaque question de l'ensemble d'apprentissage.

de la même manière, notre classificateur d'arbre de décision tente d'apprendre chaque point des données d'entraînement, mais il souffre radicalement lorsqu'il trouve un nouveau point de données dans l'ensemble de test. Pas capable de bien généraliser.

Cette situation où un modèle donné fonctionne trop bien sur les données d'entraînement, mais la performance chute de manière significative sur l'ensemble de test est appelé le modèle de surapprentissage.

Par exemple, modèles non paramétriques comme arbres de décision, KNN et d'autres algorithmes arborescents sont très sujets au surapprentissage. Ces modèles peuvent apprendre des relations très complexes qui peuvent entraîner un surapprentissage. Le graphique suivant résume ce concept:

D'autre part, si le modèle fonctionne mal pendant le test et l'entraînement, nous l'appelons donc un modèle mal ajusté. Un exemple de cette situation serait la construction d'un modèle de régression linéaire sur des données non linéaires.

Remarques finales

J'espère que ce bref aperçu a dissipé tous les doutes que vous auriez pu avoir sur les modèles non adaptés, ils sont surdimensionnés et mieux ajustés et comment ils fonctionnent ou se comportent sous le capot.

N'hésitez pas à m'envoyer vos questions ou commentaires ci-dessous.