Questo articolo è stato pubblicato nell'ambito del Blogathon sulla scienza dei dati.
Panoramica
- Scopri di più sull'algoritmo dell'albero decisionale in Machine Learning per i problemi di classificazione.
- Qui abbiamo coperto l'entropia, il guadagno di informazioni e l'impurità di Gini
Algoritmo dell'albero decisionale
algoritmi. Quella può essere utilizzato sia per un problema di classificazione che per un problema di regressione.
L'obiettivo di questo algoritmo è creare un modello che preveda il valore di una variabile di destinazione., per i quali l'albero decisionale utilizza la rappresentazione ad albero per risolvere il problema in cui il nodo foglia corrisponde a un tag di classe e gli attributi sono rappresentati sul nodo interno. dell'albero.
Prendiamo un set di dati di esempio per avanzare ulteriormente ....
Supponiamo di avere un campione di 14 set di dati dei pazienti e dobbiamo prevedere quale farmaco suggerire al paziente A o B.
Diciamo che scegliamo il colesterolo come primo attributo per dividere i dati.
Dividerà i nostri dati in due rami Alto e Normale in base al colesterolo, Come puoi vedere nella figura sopra.
Supponiamo che il nostro nuovo paziente abbia il colesterolo alto a causa della precedente divisione dei nostri dati che non possiamo dire. o Il farmaco B o il farmaco A saranno adatti al paziente.
Cosa c'è di più, se il colesterolo del paziente è normale, non abbiamo ancora un'idea o informazioni per determinare se il farmaco A o il farmaco B è giusto per il paziente.
Prendiamo un'altra età degli attributi, come possiamo vedere, L'età ha tre categorie: Giovane, Di mezza età e anziani, Proviamo a dividere.
Dalla figura precedente, Ora possiamo dire che possiamo facilmente prevedere quale farmaco somministrare a un paziente in base ai loro rapporti..
Ipotesi che facciamo quando usiamo l'albero decisionale:
– All'inizio, Consideriamo l'intero set di allenamento come la radice.
-I valori caratteristici sono preferiti per essere categorici, Se i valori continuano, vengono convertiti in discreti prima di costruire il modello.
-In base ai valori degli attributi, I record sono distribuiti in modo ricorsivo.
-Utilizziamo un metodo statistico per ordinare attributi come nodo radice o nodo interno.
Matematica dietro l'algoritmo dell'albero decisionale: Prima di passare al guadagno delle informazioni, Per prima cosa dobbiamo capire l'entropia.
entropia: entropia sono le misure di impurità, disordine, oh incertezza in molti esempi.
Scopo dell'entropia:
L'entropia controlla il modo in cui un albero decisionale decide spezzare i dati. Influisce sul modo in cui un Albero decisionale Disegna i tuoi confini.
"I valori di entropia vanno da 0 fino a 1", meno il valore dell'entropia è più affidabile.
Supponiamo di avere caratteristiche F1, F2, F3, selezioniamo la funzione F1 come nodo principale
F1 contiene 9 etichetta sì e 5 nessuna etichetta, dopo aver diviso la F1 otteniamo F2 che ha 6 sì / 2 No e F3 hai 3 sì / 3 no.
Ora, se proviamo a calcolare l'Entropia di entrambi F2 usando la formula dell'Entropia …
Inserimento di valori nella formula:
Qui, 6 è il numero di sì preso come positivo poiché stiamo calcolando la probabilità divisa per 8 è il numero totale di righe presenti in F2.
Nello stesso modo, se eseguiamo l'entropia per F3 otterremo 1 bit che è un caso di un attributo poiché in esso ci sono 50%, Sì e 50% no.
Questa divisione continuerà a meno che e fino a quando non otteniamo un sottoinsieme puro..
Cos'è un sottoinsieme Pure.?
Il sottoinsieme puro è una situazione in cui otterremo tutti sì o tutti i no in questo caso.
Lo abbiamo fatto rispetto a un nodo, Cosa succede se dopo aver diviso F2 possiamo anche richiedere qualche altro attributo per arrivare al nodo foglia e dobbiamo anche prendere l'entropia di quei valori e aggiungerli per inviare tutti quei valori di entropia per quello? Abbiamo il concetto di guadagno di informazioni.
Guadagno di informazioni: Il guadagno di informazioni viene utilizzato per decidere in quale funzione dividersi in ogni fase della costruzione dell'albero.. La semplicità è la cosa migliore, Ecco perché vogliamo che il nostro albero sia piccolo. Per farlo, Ad ogni passo dobbiamo scegliere la divisione che risulta nei nodi figlio più puri. Una misura di purezza comunemente usata è chiamata informazione.
Per ogni nodo della struttura, Il valore dell'informazione misura la quantità di informazioni fornite da una caratteristica di classe. La divisione con il maggior guadagno di informazioni sarà presa come prima divisione e il processo continuerà fino a quando tutti i nodi figlio sono puri o fino a quando il guadagno di informazioni non sarà 0.
L'algoritmo calcola il guadagno di informazioni per ogni divisione e seleziona la divisione che dà il valore più alto di guadagno di informazioni.
Possiamo dire che in Information Gain calcoleremo la media di tutta l'entropia in funzione della divisione specifica..
Sv = Campione totale dopo la divisione come in F2 ci sono 6 sì
S = Campione totale come in F1 = 9 + 5 = 14
Ora calcolando il guadagno di informazioni:
In questo modo, L'algoritmo eseguirà questa operazione per n numero di divisioni, e il guadagno di informazioni per la divisione che è maggiore lo porterà a costruire l'albero decisionale.
Maggiore è il valore del guadagno informativo della divisione, Maggiore è la probabilità che venga selezionato per la particolare divisione.
Gini impurità:
L'impurità di Gini è una misura utilizzata per costruire alberi decisionali per determinare come le caratteristiche di un set di dati dovrebbero dividere i nodi per formare l'albero.. Più precisamente, l'impurità di Gini di un set di dati è un numero compreso tra 0-0,5, Indicare la probabilità che i dati nuovi e casuali vengano classificati in modo errato se viene assegnata un'etichetta di classe casuale in base alla distribuzione della classe nel set di dati.
Entropia vs impurità di Gini
Il valore massimo di entropia è 1, mentre il valore massimo di impurità di Gini è 0,5.
Come il Gini Impurit
In questo articolo, Abbiamo coperto molti dettagli sull'albero decisionale, Come funziona e la matematica dietro di esso, misure di selezione degli attributi come Entropia, Guadagno di informazioni, Impurità di Gini con le sue formule e come l'algoritmo di apprendimento automatico lo risolve.
In questa fase, Spero che tu abbia un'idea dell'albero decisionale, Uno dei migliori algoritmi di apprendimento automatico per risolvere un problema di classificazione.
Come nuovo, Ti consiglio di imparare queste tecniche e capire la loro implementazione e poi implementarle nei tuoi modelli..
per una migliore comprensione, Vedi HTTPS://scikit-learn.org/stable/modules/tree.html
Il supporto mostrato in questo articolo non è di proprietà di Analytics Vidhya e viene utilizzato a discrezione dell'autore.
Imparentato
Articoli correlati:
- Statistiche in Excel | 10 funzioni statistiche in Microsoft Excel
- 10 applicazioni Internet delle cose (IoT) Nel mondo reale
- Analisi del sentiment basata su regole in Python per data scientist
- Le migliori startup di intelligenza artificiale | Startup di intelligenza artificiale da considerare in 2021