Gini impureté | Division de l'arbre de décision avec l'impureté de Gini

Partager sur Facebook
Partager sur Twitter
Partager sur lié
Partager sur télégramme
Partager sur WhatsApp

Contenu

introduction

Dans l'article précédent, Comment diviser un arbre de décision: la quête pour atteindre des nœuds purs, compris les bases des arbres de décision, comme la division, la division idéale et les nœuds purs. Dans cet article, nous verrons l'un des algorithmes les plus populaires pour sélectionner la meilleure division dans les arbres de décision: Gini impureté.

Noter: Si vous êtes plus intéressé par l'apprentissage de concepts dans un format audiovisuel, nous avons cet article complet expliqué dans la vidéo ci-dessous. Si ce n'est pas comme ça, tu peux continuer à lire.

PD: si vous n'avez pas lu l'article précédent, vous aurez peut-être du mal à comprendre cet article.

Ensuite, jusqu'à présent, nous avons vu que l'attribut “Classe” est capable d'estimer le comportement des élèves, jouer au cricket ou pas. Et cet attribut fonctionne beaucoup mieux par rapport aux deux variables restantes, Quoi “l'hauteur” Oui “performances en classe”. Si tu te souviens, nous avons fait une division de toutes les fonctions disponibles puis nous avons comparé chaque division pour décider laquelle était la meilleure. C'est ainsi que fonctionne l'algorithme de l'arbre de décision.

Un arbre de décision divise d'abord les nœuds en toutes les variables disponibles, puis sélectionne la division qui donne les sous-nœuds les plus homogènes.

Homogène signifie ici avoir un comportement similaire par rapport au problème que nous avons. Si les nœuds sont complètement purs, chaque nœud ne contiendra qu'une seule classe et, donc, ils seront homogènes. Vous pouvez donc intuitivement imaginer que Plus la pureté des nœuds est élevée, plus l'homogénéité est grande.

Gini impureté: un algorithme d'arbre de décision pour sélectionner la meilleure division

Il existe plusieurs algorithmes que l'arbre de décision utilise pour décider de la meilleure division pour le problème.. Regardons d'abord le plus commun et le plus populaire de tous, Qu'est que c'est Gini impureté. Mesure l'impureté des nœuds et est calculé comme:

capture d

Commençons par comprendre ce qu'est Gini, puis je vous montrerai comment calculer l'impureté de Gini pour la division et décider de la bonne division. Disons que nous avons un nœud comme celui-ci-

capture d

Ensuite, ce que dit Gini c'est que si on choisit au hasard deux points d'une population, roses mis en évidence ici, alors ils doivent être de la même classe. Disons que nous avons un nœud complètement pur

capture d

Pouvez-vous deviner quelle serait la probabilité qu'un point choisi au hasard appartienne à la même classe ?? Bon, sera évidemment 1 puisque tous les points ici appartiennent à la même classe. Ensuite, peu importe les deux points que vous avez choisis, appartiendra toujours à cette classe et, donc, la probabilité sera toujours 1 si le nœud est pur. Et c'est ce que nous voulons réaliser avec Gini.

Gini varie de zéro à un, puisqu'il s'agit d'une probabilité et plus cette valeur est élevée, plus la pureté des nœuds est grande. Oui, bien sûr, une valeur plus petite signifie des nœuds purs plus petits.

Propriétés d'impureté de Gini

Voyons ses propriétés avant de calculer l'impureté de Gini pour décider de la meilleure division.

Nous décidons de la meilleure division en fonction de l'impureté Gini et, comme nous en avons discuté avant, L'impureté de Gini est:

capture d

Ici Gini dénote la pureté et, pourtant, L'impureté de Gini nous parle de l'impureté des nœuds. Si l'impureté de Gini est réduite, nous pouvons en déduire sans risque que la pureté sera plus élevée et, donc, une probabilité plus élevée d'homogénéité des nœuds.

Gini ne fonctionne que dans les scénarios où nous avons catégorique objectifs. Ne fonctionne pas avec des cibles continues.

Un point très important à garder à l'esprit à garder à l'esprit. Par exemple, si vous voulez prévoir le prix de la maison ou le nombre de vélos qui ont été loués, Gini n'est pas le bon algorithme. Effectuer uniquement des divisions binaires, que ce soit oui ou non, succès ou échec, etc. Donc, ne divisera qu'un nœud en deux sous-nœuds. Ce sont les propriétés de l'impureté Gini.

Étapes pour calculer l'impureté de Gini pour un Split

Voyons maintenant les étapes pour calculer la division de Gini. Premier, on calcule l'impureté de Gini pour les sous-noeuds, comme tu l'as déjà discuté, et je suis sûr que tu le sais déjà:

impureté de Gini = 1 – Gini

Voici la somme des carrés des probabilités de réussite pour chaque classe et est donnée comme:

capture d

Considérant qu'il y a n classes.

Une fois que nous avons calculé l'impureté de Gini pour les sous-noeuds, nous calculons l'impureté de Gini de la division en utilisant l'impureté pondérée des deux sous-noeuds de cette division. Ici, le poids est déterminé par le nombre d'observations d'échantillon aux deux nœuds. Voyons ces calculs à l'aide d'un exemple, qui t'aidera à mieux comprendre.

Pour la division sur la performance en classe, Vous souvenez-vous que c'était la division?

capture d

Diviser en performances de classe

Nous avons deux catégories, l'un est “au dessus de la moyenne” et l'autre est “Sous la moyenne”. Lorsque nous nous concentrons sur la moyenne ci-dessus, avoir 14 étudiants dont 8 ils jouent au cricket et 6 non. La probabilité de jouer au cricket serait 8 divisé par 14, ce qui est autour 0,57, et pareillement, ne pas jouer au cricket, la probabilité sera 6 divisé par 14, ce qui sera autour 0,43. Ici pour la simplicité, J'ai arrondi les calculs au lieu de prendre le nombre exact.

capture d

De la même manière, quand on regarde en dessous de la moyenne, on calcule tous les nombres et les voici: la probabilité de jouer est 0,33 et ne pas jouer c'est 0,67-

capture d

Calculons maintenant l'impureté Gini des sous-nœuds au-dessus de la moyenne et voici le calcul:

capture d

Ce sera, un moins le carré de la probabilité de succès pour chaque catégorie, Qu'est que c'est 0,57 jouer au cricket et 0,43 ne pas jouer au cricket. Ensuite, après ce calcul, Gini vient à la lumière 0,49. Le nœud Inférieur à la moyenne fera le même calcul que Gini. Sous la moyenne:

capture d

Vient autour 0.44. Faites une pause et analysez ces chiffres.

À présent, pour calculer l'impureté de Gini de la division, nous prendrons les impuretés Gini pondérées des deux nœuds, au dessus de la moyenne et en dessous de la moyenne. Dans ce cas, le poids d'un nœud est le nombre d'échantillons à ce nœud divisé par le nombre total d'échantillons au nœud parent. Ensuite, pour le nœud au-dessus de la moyenne ici, le poids sera 14/20, puisqu'il y a 14 élèves qui ont obtenu des résultats supérieurs à la moyenne du total de 20 étudiants que nous avions.

Et le poids en dessous de la moyenne est 20/6. Ensuite, l'impureté Gini pondérée sera le poids de ce nœud multiplié par l'impureté Gini de ce nœud. L'impureté pondérée de Gini pour performance en classe divisée s'avère être:

capture d

de la même manière, ici nous avons capturé l'impureté de Gini pour la division des classes, qui sort pour être autour 0,32

capture d

À présent, si on compare les deux impuretés de Gini pour chaque division-

capture d

On voit que l'impureté de Gini pour la division en Classe C'est moins. Et par conséquent, la classe sera la première division de cet arbre de décision.

capture d

Diviser en classe

de la même manière, pour chaque division, nous calculerons les impuretés de Gini et la division qui produit l'impureté de Gini minimale sera sélectionnée comme division. Et saches, que la valeur minimale d'impureté de Gini signifie que le nœud sera plus pur et plus homogène.

Remarques finales

Dans cet article, nous avons vu l'un des algorithmes de division les plus populaires dans les arbres de décision: L'impureté de Gini. Ne peut être utilisé que pour les variables cibles catégorielles. Il existe d'autres algorithmes qui sont également utilisés pour diviser, que si vous voulez comprendre vous pouvez me le faire savoir dans la section commentaires.

Si vous cherchez à commencer votre parcours en science des données et que vous voulez tous les sujets sous un même toit, votre recherche s'arrête ici. Jetez un œil à l'IA et au ML BlackBelt certifiés de DataPeaker Plus Programme

Si vous avez des questions, Faites le moi savoir dans la section commentaire!

Abonnez-vous à notre newsletter

Nous ne vous enverrons pas de courrier SPAM. Nous le détestons autant que vous.