Classification de l'arbre de décision | Guide de classification des arbres de décision

Contenu

Vue d'ensemble

  • Qu'est-ce que l'algorithme d'arbre de classification de décision?
  • Comment construire un arbre de décision à partir de zéro
  • Terminologies de l'arbre de décision
  • Différence entre forêt aléatoire et arbre de décision
  • Implémentation du code Python des arbres de décision

Il existe plusieurs algorithmes en apprentissage automatique pour les problèmes de régression et de classification, mais en optant pour L'algorithme le meilleur et le plus efficace pour l'ensemble de données donné est le point principal à souligner lors du développement d'un bon modèle d'apprentissage automatique..

Un de ces algorithmes bon pour les problèmes de classification / catégorique et la régression est l'arbre de décision

Les arbres de décision mettent généralement en œuvre exactement la capacité de réflexion humaine lors de la prise de décision, donc c'est facile à comprendre.

La logique derrière l'arbre de décision peut être facilement comprise car il montre une structure de type organigramme / structure arborescente qui facilite la visualisation et l'extraction des informations du processus d'arrière-plan.

75351veeterzy-smqil_2v4vs-unsplash-6299242

Table des matières

  1. Qu'est-ce qu'un arbre de décision?
  2. Éléments de l'arbre de décision
  3. Comment prendre une décision à partir de zéro
  4. Comment fonctionne l'algorithme de l'arbre de décision?
  5. Connaissance de l'EDA (l'analyse exploratoire des données)
  6. Arbres de décision et forêts aléatoires
  7. Avantages de la forêt de décision
  8. Inconvénients de la forêt de décision
  9. Implémentation du code Python

1. Qu'est-ce qu'un arbre de décision?

Un arbre de décision est un algorithme d'apprentissage automatique supervisé. Utilisé dans les algorithmes de classification et de régression.. L'arbre de décision est comme un arbre avec des nœuds. Les branches dépendent de plusieurs facteurs. Divise les données en branches comme celles-ci jusqu'à ce qu'elles atteignent une valeur seuil. Un arbre de décision se compose des nœuds racines, nœuds enfants et nœuds feuilles.

Comprenons les méthodes de l'arbre de décision en prenant un scénario réel

Imaginez que vous jouez au football tous les dimanches et que vous invitez toujours votre ami à jouer avec vous. Parfois, ton ami vient et les autres pas.

Le facteur de venir ou non dépend de beaucoup de choses, comme le temps, la température, vent et fatigue. Nous avons commencé à prendre toutes ces fonctionnalités en considération et à les suivre en même temps que la décision de votre ami de venir jouer ou non..

Vous pouvez utiliser ces données pour prédire si votre ami viendra jouer au football ou non. La technique que vous pourriez utiliser est un arbre de décision. Voici à quoi ressemblerait l'arbre de décision après le déploiement:

23016pic-1236422

2. Éléments d'un arbre de décision

Chaque arbre de décision se compose de la liste d'éléments suivante:

un nœud

b Bords

c Racine

d Feuilles

une) Nœuds: C'est le point où l'arbre est divisé en fonction de la valeur d'un attribut / caractéristique de l'ensemble de données.

b) Bords: Dirige le résultat d'une division vers le nœud suivant que nous pouvons voir dans la figure précédente qu'il existe des nœuds pour des fonctionnalités telles que la perspective, humidité et vent. Il y a un avantage pour chaque valeur potentielle de chacun de ces attributs / fonctionnalités.

c) Racine: C'est le nœud où a lieu la première division.

ré) Feuilles: Ce sont les nœuds terminaux qui prédisent le résultat de l'arbre de décision.

3. Comment construire des arbres de décision à partir de zéro?

Lors de la création d'un arbre de décision, l'essentiel est de sélectionner le meilleur attribut dans la liste des caractéristiques totales du jeu de données pour le nœud racine et pour les sous-nœuds. La sélection des meilleurs attributs est réalisée à l'aide d'une technique connue sous le nom de mesure de sélection d'attributs. (ASM).

Avec l'aide de l'ASM, nous pouvons facilement sélectionner les meilleures caractéristiques pour les nœuds respectifs de l'arbre de décision.

Il existe deux techniques pour l'ASM:

une) Gain d'informations

b) indice de Gini

une) Gain d'informations:

1 Le gain d'information est la mesure des changements de valeur d'entropie après division / segmentation du jeu de données basée sur un attribut.

2 Indique la quantité d'informations qu'une fonctionnalité nous fournit / attribut.

3 Suivre la valeur du gain d'information, la division des nœuds et la construction de l'arbre de décision sont en cours.

L'arbre de décision 4 essaie toujours de maximiser la valeur du gain d'information, et un nœud / l'attribut qui a la valeur la plus élevée du gain d'information est divisé en premier. Le gain d'information peut être calculé à l'aide de la formule suivante:

Gain d'information = Entropie (S) – [(Moyenne pondérée) *Entropie(chaque caractéristique)

Entropie: L'entropie signifie le caractère aléatoire de l'ensemble de données. Il est défini comme une métrique pour mesurer l'impureté. L'entropie peut être calculée comme:

Entropie(s)= -P(Oui)log2P(Oui)- P(non) log2P(non)

Où,

S= Nombre total d'échantillons

P(Oui)= probabilité de oui

P(non)= probabilité de non.

b) Indice de Gini:

L'indice de Gini est également défini comme une mesure d'impureté/pureté utilisée lors de la création d'un arbre de décision dans le CART(connu sous le nom d'arbre de classification et de régression) algorithme.

Un attribut ayant une valeur d'indice de Gini faible doit être préféré par rapport à la valeur d'indice de Gini élevée.

Il ne crée que des divisions binaires, et l'algorithme CART utilise l'index de Gini pour créer des divisions binaires.

L'indice de Gini peut être calculé en utilisant la formule ci-dessous:

Indice de Gini= 1- ??jPj2

Où pj représente la probabilité

4. Comment fonctionne l'algorithme d'arbre de décision?

L'idée de base derrière tout algorithme d'arbre de décision est la suivante:

1. Sélectionnez la meilleure entité à l'aide des mesures de sélection d'attributs(ASM) diviser les records.

2. Faire de cet attribut/caractéristique un nœud de décision et diviser l'ensemble de données en sous-ensembles plus petits.

3 Démarrez le processus de construction de l'arbre en répétant ce processus de manière récursive pour chaque enfant jusqu'à ce que l'une des conditions suivantes soit atteinte :

une) Tous les tuples appartenant à la même valeur d'attribut.

b) Il ne reste plus d'attributs.

c ) Il n'y a plus d'instances restantes.

5. Arbres de décision et forêts aléatoires

Les arbres de décision et la forêt aléatoire sont les deux méthodes d'arbre utilisées dans l'apprentissage automatique..

Les arbres de décision sont les modèles d'apprentissage automatique utilisés pour faire des prédictions en parcourant chaque caractéristique de l'ensemble de données, un par un.

Les forêts aléatoires, quant à elles, sont une collection d'arbres de décision regroupés et entraînés ensemble qui utilisent des ordres aléatoires des caractéristiques dans les ensembles de données donnés..

Au lieu de s'appuyer sur un seul arbre de décision, la forêt aléatoire prend la prédiction de chaque arbre et basée sur la majorité des votes des prédictions, et il donne le résultat final. En d'autres termes, la forêt aléatoire peut être définie comme une collection de plusieurs arbres de décision.

860360_yewfetxqgpb8adfv-3313543

6. Avantages de l'arbre de décision

1 Il est simple à mettre en œuvre et suit une structure de type organigramme qui ressemble à une prise de décision humaine.

2 Il s'avère très utile pour les problèmes liés à la décision.

3 Il aide à trouver tous les résultats possibles pour un problème donné.

4 Il y a très peu de besoin de nettoyage des données dans les arbres de décision par rapport aux autres algorithmes d'apprentissage automatique.

5 Gère à la fois les valeurs numériques et les valeurs catégorielles

7. Inconvénients de l'arbre de décision

1 Trop de couches d'arbre de décision le rendent parfois extrêmement complexe.

2 Cela peut entraîner un surapprentissage ( qui peut être résolu à l'aide de la Algorithme de forêt aléatoire)

3 Pour le plus grand nombre d'étiquettes de classe, la complexité de calcul de l'arbre de décision augmente.

8. Implémentation du code Python

#Bibliothèques de calcul numérique

importer des pandas au format pd
importer numpy en tant que np
importer matplotlib.pyplot en tant que plt
importer seaborn comme sns

#Chargement des données

raw_data = pd.read_csv('cyphosis.csv')
raw_data.columns
Indice(['Cyphose', 'Âge', 'Nombre', 'Début'], dtype = "objet")

#L'analyse exploratoire des données

raw_data.info()
sns.pairplot(données brutes, teinte ="Cyphose")
42140télécharger2011-6768570

# Divisez l'ensemble de données en données d'entraînement et données de test

de sklearn.model_selection importer train_test_split
x = raw_data.drop('Cyphose', axe = 1)
y = raw_data['Cyphose']
x_training_data, x_test_data, y_training_data, y_test_data = train_test_split(X, Oui, taille_test = 0.3)

#Former le modèle d'arbre de décision

depuis sklearn.tree importer DecisionTreeClassifier
modèle = DecisionTreeClassifier()
model.fit(x_training_data, y_training_data)
prédictions = model.predict(x_test_data)

# Mesurer les performances du modèle d'arbre de décision

à partir de sklearn.metrics importer classification_report
à partir de sklearn.metrics importer confusion_matrix
imprimer(classement_rapport(y_test_data, prédictions))
imprimer(confusion_matrice(y_test_data, prédictions))

Sur ce je termine ce blog.
Bonjour à tous, Namaste
Je m'appelle Pranshu Sharma et je suis un passionné de science des données

19299img_20201025_215043_588-3585604

Merci beaucoup d'avoir pris votre temps précieux pour lire ce blog.. N'hésitez pas à signaler d'éventuelles erreurs (après tout, je suis apprenti) et fournir les commentaires correspondants ou laisser un commentaire.

Dhanyvaad !!
Retour d'information:
Courrier électronique: [email protégé]

Les médias présentés dans cet article DataPeaker ne sont pas la propriété de DataPeaker et sont utilisés à la discrétion de l'auteur.

Abonnez-vous à notre newsletter

Nous ne vous enverrons pas de courrier SPAM. Nous le détestons autant que vous.