Impureza de Gini | Divisão da árvore de decisão com impureza Gini

Compartilhar no Facebook
Compartilhar no Twitter
Compartilhar no LinkedIn
Compartilhar no telegrama
Compartilhar no Whatsapp

Conteúdo

Introdução

No artigo anterior, Como dividir uma árvore de decisão: a busca para alcançar nós puros, entendeu o básico das árvores de decisão, como divisão, a divisão ideal e os nós puros. Neste artigo, veremos um dos algoritmos mais populares para selecionar a melhor divisão em árvores de decisão: Impureza de Gini.

Observação: Se você está mais interessado em aprender conceitos em formato audiovisual, temos esse artigo completo explicado no vídeo abaixo. Sim, não é assim, você pode continuar lendo.

PD: se você não leu o artigo anterior, você pode ter dificuldade em entender este artigo.

Então, até agora vimos que o atributo “Classe” é capaz de estimar o comportamento do aluno, sobre jogar críquete ou não. E este atributo está funcionando muito melhor em comparação com as duas variáveis ​​restantes, O que “a altura” e “desempenho na aula”. Se você lembrar, fizemos uma divisão de todas as funções disponíveis e, em seguida, comparamos cada divisão para decidir qual era a melhor. É assim que o algoritmo da árvore de decisão também funciona.

Uma árvore de decisão primeiro divide os nós em todas as variáveis ​​disponíveis e, em seguida, seleciona a divisão que resulta nos subnós mais homogêneos.

Homogêneo aqui significa ter um comportamento semelhante em relação ao problema que temos. Se os nós forem completamente puros, cada nó conterá apenas uma única classe e, portanto, eles serão homogêneos. Então você pode imaginar intuitivamente que Quanto maior a pureza dos nós, quanto maior a homogeneidade.

Impureza de Gini: um algoritmo de árvore de decisão para selecionar a melhor divisão

Existem vários algoritmos que a árvore de decisão usa para decidir a melhor divisão para o problema.. Vejamos primeiro o mais comum e popular de todos eles, o que é Impureza de Gini. Mede a impureza dos nós e é calculado como:

screenshot-from-2021-03-22-15-34-04-300x66-7397119

Vamos primeiro entender o que é Gini e então mostrarei como você pode calcular a impureza de Gini para divisão e decidir a divisão correta. Digamos que temos um nó como este-

screenshot-from-2021-03-22-15-34-52-300x179-1751390

Então, o que Gini diz é que se escolhermos dois pontos de uma população aleatoriamente, rosa destacado aqui, então eles devem ser da mesma classe. Digamos que temos um nó completamente puro

screenshot-from-2021-03-22-15-34-59-300x191-8509210

Você consegue adivinhar qual seria a probabilidade de um ponto escolhido aleatoriamente pertencer à mesma classe?? Nós vamos, obviamente será 1 uma vez que todos os pontos aqui pertencem à mesma classe. Então, não importa quais dois pontos você escolheu, sempre pertencerá a essa classe e, portanto, a probabilidade sempre será 1 se o nó é puro. E é isso que queremos alcançar com Gini.

Gini varia de zero a um, uma vez que é uma probabilidade e quanto maior este valor é, quanto maior a pureza dos nós. E, claro, um valor menor significa nós puros menores.

Propriedades de impureza de Gini

Vamos ver suas propriedades antes de calcular a impureza de Gini para decidir a melhor divisão.

Decidimos a melhor divisão com base na impureza de Gini e, como discutimos antes, A impureza de Gini é:

screenshot-from-2021-03-22-15-34-04-300x66-7397119

Aqui Gini denota pureza e, por tanto, A impureza de Gini nos fala sobre a impureza dos nós. Se a impureza de Gini for reduzida, podemos inferir com segurança que a pureza será maior e, portanto, uma maior probabilidade de homogeneidade dos nós.

Gini funciona apenas nos cenários em que temos categórico Objetivos. Não funciona com metas contínuas.

Um ponto muito importante a ter em mente para ter em mente. Por exemplo, se você quer prever o preço da casa ou o número de bicicletas que foram alugadas, Gini não é o algoritmo certo. Execute apenas divisões binárias, se sim ou não, sucesso ou fracasso, etc. Portanto, irá apenas dividir um nó em dois subnós. Estas são as propriedades da impureza Gini.

Etapas para calcular a impureza de Gini para uma divisão

Vamos agora ver as etapas para calcular a divisão Gini. Primeiro, calculamos a impureza Gini para os subnós, como você já discutiu, e tenho certeza que você já sabe:

Impureza de Gini = 1 – Gini

Aqui está a soma dos quadrados das probabilidades de sucesso para cada classe e é dada como:

screenshot-from-2021-03-22-15-38-59-300x53-2347120

Considerando que existem n classes.

Depois de calcularmos a impureza Gini para os subnós, calculamos a impureza Gini da divisão usando a impureza ponderada de ambos os subnós dessa divisão. Aqui, o peso é decidido pelo número de observações da amostra em ambos os nós. Vamos ver esses cálculos usando um exemplo, o que o ajudará a entender isso ainda melhor.

Para a divisão em desempenho de classe, Você lembra que essa era a divisão?

screenshot-from-2021-03-22-15-39-47-8911559

Divida o desempenho em classe

Temos duas categorias, um é “acima da média” e o outro é “Abaixo da média”. Quando nos concentramos no acima da média, tenho 14 alunos dos quais 8 eles jogam críquete e 6 não. A probabilidade de jogar críquete seria 8 dividido por 14, o que está por aí 0,57, e similarmente, não jogar críquete, a probabilidade será 6 dividido por 14, o que estará por aí 0,43. Aqui pela simplicidade, Arredondei os cálculos em vez de pegar o número exato.

screenshot-from-2021-03-22-15-41-13-e1616407977480-4052443

Do mesmo modo, quando olhamos abaixo da média, calculamos todos os números e aqui estão eles: a probabilidade de jogar é 0,33 e não jogar é 0,67-

screenshot-from-2021-03-22-15-41-25-e1616408089843-6493311

Vamos agora calcular a impureza Gini dos subnós acima da média e aqui está o cálculo:

screenshot-from-2021-03-22-15-45-19-5145036

Será, um menos o quadrado da probabilidade de sucesso para cada categoria, o que é 0,57 jogar críquete e 0,43 não jogar críquete. Então, após este cálculo, Gini vem à luz 0,49. O nó inferior à média fará o mesmo cálculo que Gini. Abaixo da média:

screenshot-from-2021-03-22-15-45-28-4577620

Vem por aí 0.44. Basta fazer uma pausa e analisar esses números.

Agora, calcular a impureza Gini da divisão, vamos tirar as impurezas de Gini ponderadas de ambos os nós, acima da média e abaixo da média. Neste caso, o peso de um nó é o número de amostras naquele nó dividido pelo número total de amostras no nó pai. Então, para o nó acima da média aqui, o peso será 14/20, como não 14 alunos que tiveram desempenho acima da média do total de 20 alunos que tivemos.

E o peso abaixo da média é 20/6. Então, a impureza Gini ponderada será o peso desse nó multiplicado pela impureza Gini desse nó. Impureza ponderada de Gini para desempenho em classe dividida acaba sendo:

screenshot-from-2021-03-22-15-49-28-4004518

de forma similar, aqui capturamos a impureza de Gini para a divisão de classes, que acaba sendo por aí 0,32

screenshot-from-2021-03-22-15-50-25-300x247-5127699

Agora, se compararmos as duas impurezas de Gini para cada divisão-

screenshot-from-2021-03-22-15-45-46-7497994

Vemos que a impureza de Gini para a divisão em Classe É menos. E, por conseguinte, a classe será a primeira divisão desta árvore de decisão.

screenshot-from-2021-03-22-15-54-22-5944499

Divida em classe

de forma similar, para cada divisão, vamos calcular as impurezas de Gini e a divisão que produz o mínimo de impurezas de Gini será selecionada como divisão. E sabe, que o valor mínimo de impureza Gini significa que o nó será mais puro e mais homogêneo.

Notas finais

Neste artigo, vimos um dos algoritmos de divisão mais populares em árvores de decisão: Impureza de Gini. Só pode ser usado para variáveis ​​de destino categóricas. Existem outros algoritmos que também são usados ​​para dividir, que se você quiser entender você pode me avisar na seção de comentários.

Se você está procurando iniciar sua jornada de ciência de dados e deseja todos os tópicos sob o mesmo teto, sua busca para aqui. Dê uma olhada no AI e ML BlackBelt certificados da DataPeaker Mais Programa

Se você tem alguma dúvida, Deixe-me saber na seção de comentários!

Assine a nossa newsletter

Nós não enviaremos SPAM para você. Nós odiamos isso tanto quanto você.