Introdução
No artigo anterior, Como dividir uma árvore de decisão: a busca para alcançar nós puros, entendeu o básico das árvores de decisão, como divisão, a divisão ideal e os nós puros. Neste artigo, veremos um dos algoritmos mais populares para selecionar a melhor divisão em árvores de decisão: Impureza de Gini.
Observação: Se você está mais interessado em aprender conceitos em formato audiovisual, temos esse artigo completo explicado no vídeo abaixo. Sim, não é assim, você pode continuar lendo.
PD: se você não leu o artigo anterior, você pode ter dificuldade em entender este artigo.
Então, até agora vimos que o atributo “Classe” é capaz de estimar o comportamento do aluno, sobre jogar críquete ou não. E este atributo está funcionando muito melhor em comparação com as duas variáveis restantes, O que “a altura” e “desempenho na aula”. Se você lembrar, fizemos uma divisão de todas as funções disponíveis e, em seguida, comparamos cada divisão para decidir qual era a melhor. É assim que o algoritmo da árvore de decisão também funciona.
Uma árvore de decisão primeiro divide os nós em todas as variáveis disponíveis e, em seguida, seleciona a divisão que resulta nos subnós mais homogêneos.
Homogêneo aqui significa ter um comportamento semelhante em relação ao problema que temos. Se os nós forem completamente puros, cada nó conterá apenas uma única classe e, portanto, eles serão homogêneos. Então você pode imaginar intuitivamente que Quanto maior a pureza dos nós, quanto maior a homogeneidade.
Impureza de Gini: um algoritmo de árvore de decisão para selecionar a melhor divisão
Existem vários algoritmos que a árvore de decisão usa para decidir a melhor divisão para o problema.. Vejamos primeiro o mais comum e popular de todos eles, o que é Impureza de Gini. Mede a impureza dos nós e é calculado como:
Vamos primeiro entender o que é Gini e então mostrarei como você pode calcular a impureza de Gini para divisão e decidir a divisão correta. Digamos que temos um nó como este-
Então, o que Gini diz é que se escolhermos dois pontos de uma população aleatoriamente, rosa destacado aqui, então eles devem ser da mesma classe. Digamos que temos um nó completamente puro
Você consegue adivinhar qual seria a probabilidade de um ponto escolhido aleatoriamente pertencer à mesma classe?? Nós vamos, obviamente será 1 uma vez que todos os pontos aqui pertencem à mesma classe. Então, não importa quais dois pontos você escolheu, sempre pertencerá a essa classe e, portanto, a probabilidade sempre será 1 se o nó é puro. E é isso que queremos alcançar com Gini.
Gini varia de zero a um, uma vez que é uma probabilidade e quanto maior este valor é, quanto maior a pureza dos nós. E, claro, um valor menor significa nós puros menores.
Propriedades de impureza de Gini
Vamos ver suas propriedades antes de calcular a impureza de Gini para decidir a melhor divisão.
Decidimos a melhor divisão com base na impureza de Gini e, como discutimos antes, A impureza de Gini é:
Aqui Gini denota pureza e, por tanto, A impureza de Gini nos fala sobre a impureza dos nós. Se a impureza de Gini for reduzida, podemos inferir com segurança que a pureza será maior e, portanto, uma maior probabilidade de homogeneidade dos nós.
Gini funciona apenas nos cenários em que temos categórico Objetivos. Não funciona com metas contínuas.
Um ponto muito importante a ter em mente para ter em mente. Por exemplo, se você quer prever o preço da casa ou o número de bicicletas que foram alugadas, Gini não é o algoritmo certo. Execute apenas divisões binárias, se sim ou não, sucesso ou fracasso, etc. Portanto, irá apenas dividir um nó em dois subnós. Estas são as propriedades da impureza Gini.
Etapas para calcular a impureza de Gini para uma divisão
Vamos agora ver as etapas para calcular a divisão Gini. Primeiro, calculamos a impureza Gini para os subnós, como você já discutiu, e tenho certeza que você já sabe:
Impureza de Gini = 1 – Gini
Aqui está a soma dos quadrados das probabilidades de sucesso para cada classe e é dada como:
Considerando que existem n classes.
Depois de calcularmos a impureza Gini para os subnós, calculamos a impureza Gini da divisão usando a impureza ponderada de ambos os subnós dessa divisão. Aqui, o peso é decidido pelo número de observações da amostra em ambos os nós. Vamos ver esses cálculos usando um exemplo, o que o ajudará a entender isso ainda melhor.
Para a divisão em desempenho de classe, Você lembra que essa era a divisão?
Divida o desempenho em classe
Temos duas categorias, um é “acima da média” e o outro é “Abaixo da média”. Quando nos concentramos no acima da média, tenho 14 alunos dos quais 8 eles jogam críquete e 6 não. A probabilidade de jogar críquete seria 8 dividido por 14, o que está por aí 0,57, e similarmente, não jogar críquete, a probabilidade será 6 dividido por 14, o que estará por aí 0,43. Aqui pela simplicidade, Arredondei os cálculos em vez de pegar o número exato.
Do mesmo modo, quando olhamos abaixo da média, calculamos todos os números e aqui estão eles: a probabilidade de jogar é 0,33 e não jogar é 0,67-
Vamos agora calcular a impureza Gini dos subnós acima da média e aqui está o cálculo:
Será, um menos o quadrado da probabilidade de sucesso para cada categoria, o que é 0,57 jogar críquete e 0,43 não jogar críquete. Então, após este cálculo, Gini vem à luz 0,49. O nó inferior à média fará o mesmo cálculo que Gini. Abaixo da média:
Vem por aí 0.44. Basta fazer uma pausa e analisar esses números.
Agora, calcular a impureza Gini da divisão, vamos tirar as impurezas de Gini ponderadas de ambos os nós, acima da média e abaixo da média. Neste caso, o peso de um nó é o número de amostras naquele nó dividido pelo número total de amostras no nó pai. Então, para o nó acima da média aqui, o peso será 14/20, como não 14 alunos que tiveram desempenho acima da média do total de 20 alunos que tivemos.
E o peso abaixo da média é 20/6. Então, a impureza Gini ponderada será o peso desse nó multiplicado pela impureza Gini desse nó. Impureza ponderada de Gini para desempenho em classe dividida acaba sendo:
de forma similar, aqui capturamos a impureza de Gini para a divisão de classes, que acaba sendo por aí 0,32–
Agora, se compararmos as duas impurezas de Gini para cada divisão-
Vemos que a impureza de Gini para a divisão em Classe É menos. E, por conseguinte, a classe será a primeira divisão desta árvore de decisão.
Divida em classe
de forma similar, para cada divisão, vamos calcular as impurezas de Gini e a divisão que produz o mínimo de impurezas de Gini será selecionada como divisão. E sabe, que o valor mínimo de impureza Gini significa que o nó será mais puro e mais homogêneo.
Notas finais
Neste artigo, vimos um dos algoritmos de divisão mais populares em árvores de decisão: Impureza de Gini. Só pode ser usado para variáveis de destino categóricas. Existem outros algoritmos que também são usados para dividir, que se você quiser entender você pode me avisar na seção de comentários.
Se você está procurando iniciar sua jornada de ciência de dados e deseja todos os tópicos sob o mesmo teto, sua busca para aqui. Dê uma olhada no AI e ML BlackBelt certificados da DataPeaker Mais Programa
Se você tem alguma dúvida, Deixe-me saber na seção de comentários!