Gini impurità | Divisione dell'albero decisionale con impurità di Gini

Condividere su Facebook
Condividere su twitter
Condividere su linkato
Condividere su telegramma
Condividere su WhatsApp

Contenuti

introduzione

Nell'articolo precedente, Come dividere un albero decisionale: la ricerca per raggiungere nodi puri, capito le basi degli alberi decisionali, come la divisione, la divisione ideale e i nodi puri. In questo articolo, vedremo uno degli algoritmi più popolari per selezionare la migliore divisione negli alberi decisionali: Gini impurità.

Nota: Se sei più interessato ad apprendere concetti in un formato audiovisivo, abbiamo questo articolo completo spiegato nel video qui sotto. Se non è così, puoi continuare a leggere.

PD: se non hai letto l'articolo precedente, potresti avere difficoltà a capire questo articolo.

Quindi, finora abbiamo visto che l'attributo “Classe” è in grado di stimare il comportamento degli studenti, sul giocare a cricket o no. E questo attributo funziona molto meglio rispetto alle due variabili rimanenti, Che cosa “l'altezza” e “prestazioni in classe”. Se ti ricordi, abbiamo fatto una divisione di tutte le funzioni disponibili e poi abbiamo confrontato ogni divisione per decidere quale fosse la migliore. Ecco come funziona anche l'algoritmo dell'albero decisionale.

Un albero decisionale prima divide i nodi in tutte le variabili disponibili e poi seleziona la divisione che risulta nei sottonodi più omogenei.

Omogeneo qui significa avere un comportamento simile rispetto al problema che abbiamo. Se i nodi sono completamente puri, ogni nodo conterrà solo una singola classe e, così, saranno omogenei. Quindi puoi intuitivamente immaginarlo Maggiore è la purezza dei nodi, maggiore è l'omogeneità.

Gini impurità: un algoritmo ad albero decisionale per selezionare la migliore divisione

Ci sono diversi algoritmi che l'albero decisionale usa per decidere la migliore divisione per il problema.. Diamo prima un'occhiata al più comune e popolare di tutti, Che cos'è Gini impurità. Misura l'impurità dei nodi e si calcola come:

screenshot-da-2021-03-22-15-34-04-300x66-7397119

Prima capiamo cos'è Gini e poi ti mostrerò come calcolare l'impurità Gini per divisione e decidere la divisione corretta. Diciamo che abbiamo un nodo come questo-

screenshot-da-2021-03-22-15-34-52-300x179-1751390

Quindi, quello che dice Gini è che se scegliamo a caso due punti da una popolazione, i rosa evidenziati qui, allora devono essere della stessa classe. Diciamo di avere un nodo completamente puro

screenshot-da-2021-03-22-15-34-59-300x191-8509210

Riuscite a indovinare quale sarebbe la probabilità che un punto scelto a caso appartenga alla stessa classe?? Bene, ovviamente sarà 1 poiché tutti i punti qui appartengono alla stessa classe. Quindi, non importa quali due punti hai scelto, apparterrà sempre a quella classe e, così, la probabilità sarà sempre 1 se il nodo è puro. Ed è quello che vogliamo ottenere con Gini.

Gini varia da zero a uno, poiché è una probabilità e più alto è questo valore, maggiore è la purezza dei nodi. E, Certo, un valore più piccolo significa nodi puri più piccoli.

Proprietà delle impurità di Gini

Vediamo le sue proprietà prima di calcolare l'impurezza di Gini per decidere la migliore divisione.

Decidiamo la migliore divisione in base all'impurità Gini e, come abbiamo discusso prima, L'impurità di Gini è:

screenshot-da-2021-03-22-15-34-04-300x66-7397119

Qui Gini denota purezza e, perciò, L'impurità di Gini ci parla dell'impurità dei nodi. Se l'impurità di Gini è ridotta, possiamo tranquillamente dedurre che la purezza sarà maggiore e, così, una maggiore probabilità di omogeneità dei nodi.

Gini funziona solo in quegli scenari in cui abbiamo categorico obiettivi. Non funziona con obiettivi continui.

Un punto molto importante da tenere a mente da tenere a mente. Ad esempio, se vuoi pronosticare il prezzo della casa o il numero di bici noleggiate, Gini non è l'algoritmo giusto. Eseguire solo divisioni binarie, se si o no, successo o fallimento, eccetera. Perciò, dividerà solo un nodo in due sottonodi. Queste sono le proprietà dell'impurità Gini.

Passi per calcolare l'impurità Gini per uno Split

Vediamo ora i passaggi per calcolare la divisione di Gini. Primo, calcoliamo l'impurezza di Gini per i sottonodi, come hai già discusso, e sono sicuro che lo sai già:

Gini impurità = 1 – Gini

Ecco la somma dei quadrati delle probabilità di successo per ogni classe ed è data come:

screenshot-da-2021-03-22-15-38-59-300x53-2347120

Considerando che ci sono n classi.

Una volta calcolata l'impurezza di Gini per i sottonodi, calcoliamo l'impurezza Gini della divisione usando l'impurezza pesata di entrambi i sottonodi di quella divisione. Qui, il peso è deciso dal numero di osservazioni campionarie su entrambi i nodi. Vediamo questi calcoli usando un esempio, che ti aiuterà a capirlo ancora meglio.

Per la divisione sul rendimento in classe, Ti ricordi che questa era la divisione??

screenshot-da-2021-03-22-15-39-47-8911559

Dividi in prestazioni di classe

Abbiamo due categorie, uno è “sopra la media” e l'altro è “Sotto la media”. Quando ci concentriamo sulla media sopra, avere 14 studenti di cui 8 giocano a cricket e 6 no. La probabilità di giocare a cricket sarebbe 8 diviso per 14, cosa c'è intorno? 0,57, e allo stesso modo, non giocare a cricket, la probabilità sarà 6 diviso per 14, cosa ci sarà in giro 0,43. Qui per semplicità, Ho arrotondato i calcoli invece di prendere il numero esatto.

screenshot-da-2021-03-22-15-41-13-e1616407977480-4052443

Nello stesso modo, quando guardiamo al di sotto della media, calcoliamo tutti i numeri ed eccoli qui: la probabilità di giocare è 0,33 e non giocare è 0,67-

screenshot-da-2021-03-22-15-41-25-e1616408089843-6493311

Calcoliamo ora l'impurità Gini dei sottonodi sopra la media ed ecco il calcolo:

screenshot-da-2021-03-22-15-45-19-5145036

Sarà, uno meno il quadrato della probabilità di successo per ogni categoria, Che cos'è 0,57 giocare a cricket e 0,43 non giocare a cricket. Quindi, dopo questo calcolo, Gini viene alla luce 0,49. Il nodo Inferiore alla media eseguirà lo stesso calcolo di Gini. Sotto la media:

screenshot-da-2021-03-22-15-45-28-4577620

viene in giro 0.44. Basta mettere in pausa e analizzare questi numeri.

Ora, calcolare l'impurezza Gini della divisione, prenderemo le impurità di Gini pesate da entrambi i nodi, sopra la media e sotto la media. In questo caso, il peso di un nodo è il numero di campioni in quel nodo diviso per il numero totale di campioni nel nodo genitore. Quindi, per il nodo sopra la media qui, il peso sarà 14/20, visto che ci sono 14 studenti che si sono esibiti al di sopra della media del totale di 20 studenti che abbiamo avuto.

E il peso sotto la media è 20/6. Quindi, l'impurità Gini pesata sarà il peso di quel nodo moltiplicato per l'impurità Gini di quel nodo. L'impurità ponderata di Gini per prestazione in classe divisa risulta essere:

screenshot-da-2021-03-22-15-49-28-4004518

Allo stesso modo, qui abbiamo catturato l'impurità di Gini per la divisione di classe, che risulta essere in giro 0,32

screenshot-da-2021-03-22-15-50-25-300x247-5127699

Ora, se confrontiamo le due impurezze di Gini per ogni divisione-

screenshot-da-2021-03-22-15-45-46-7497994

Vediamo che l'impurità Gini per la divisione in Classe è meno. E quindi, la classe sarà la prima divisione di questo albero decisionale.

screenshot-da-2021-03-22-15-54-22-5944499

Dividi in classe

Allo stesso modo, per ogni divisione, calcoleremo le impurezze di Gini e come divisione verrà selezionata la divisione che produce l'impurezza di Gini minima. E sapere, che il valore di impurezza Gini minimo significa che il nodo sarà più puro ed omogeneo.

Note finali

In questo articolo, abbiamo visto uno degli algoritmi di divisione più popolari negli alberi decisionali: L'impurità di Gini. Può essere utilizzato solo per variabili target categoriali. Esistono altri algoritmi che vengono utilizzati anche per dividere, che se vuoi capire puoi farmelo sapere nella sezione commenti.

Se stai cercando di iniziare il tuo viaggio nella scienza dei dati e desideri tutti gli argomenti sotto lo stesso tetto, la tua ricerca si ferma qui. Dai un'occhiata alle certificazioni AI e ML BlackBelt di DataPeaker Più Programma

Se hai qualche domanda, Fatemi sapere nella sezione commenti!

Iscriviti alla nostra Newsletter

Non ti invieremo posta SPAM. Lo odiamo quanto te.