Algoritmo de árvore de decisão para classificação: aprendizado de máquina 101

Conteúdo

Este artigo foi publicado como parte do Data Science Blogathon.

Visão geral

  • Saiba mais sobre o algoritmo de árvore de decisão em aprendizado de máquina para problemas de classificação.
  • aqui nós cobrimos entropia, ganho de informação e impureza de Gini

Algoritmo de árvore de decisão

algoritmos. Isso pode ser usado tanto para um problema de classificação quanto para um problema de regressão.

O objetivo deste algoritmo é criar um modelo que preveja o valor de uma variável de destino, para o qual a árvore de decisão usa a representação da árvore para resolver o problema em que o nó folha corresponde a um rótulo de classe e os atributos são representados no nó interno. da árvore.

Vamos pegar um conjunto de dados de amostra para ir mais longe ....

41746screenshot2096-3876029

Suponha que temos uma amostra de 14 conjuntos de dados do paciente e temos que prever qual medicamento sugerir ao paciente A ou B.

Digamos que escolhemos o colesterol como o primeiro atributo para dividir os dados

40753screenshot2098-4676492

Ele vai dividir nossos dados em dois ramos Alto e Normal de acordo com o colesterol, como você pode ver na figura acima.

Suponha que nosso novo paciente tenha colesterol alto da divisão acima de nossos dados que não podemos dizer qualquer O medicamento B ou A será apropriado para o paciente.

O que mais, se o colesterol do paciente é normal, ainda não temos uma ideia ou informação para determinar se o medicamento A ou B é adequado para o paciente.

Vamos dar outra era de atributo, como podemos ver, idade tem três categorias: Homem jovem, meia idade e mais velhos, vamos tentar dividir.

82443screenshot20100-4295219

Da figura anterior, agora podemos dizer que podemos prever facilmente qual medicamento administrar a um paciente com base em seus relatórios.

Suposições que fazemos ao usar a árvore de decisão:

– No princípio, consideramos todo o conjunto de treinamento como a raiz.

-Valores característicos são preferidos para serem categóricos, se os valores continuarem, são convertidos em discretos antes de construir o modelo.

-Com base em valores de atributo, os registros são distribuídos recursivamente.

-Usamos um método estatístico para ordenar atributos como nó raiz ou nó interno.

Matemática por trás do algoritmo da árvore de decisão: Antes de passar para o ganho de informação, primeiro temos que entender a entropia.

Entropia: Entropia são as medidas de impureza, transtorno, o incerteza em muitos exemplos.

Objetivo da entropia:

A entropia controla como uma árvore de decisão decide separar os dados. Afeta como um Árvore de decisão desenhe seus limites.

"Os valores de entropia variam de 0 a 1 ”, menos o valor de entropia é mais confiável.

27223screenshot20103-4776202
38403screenshot20106-1386100

Suponha que temos as características F1, F2, F3, selecionamos a característica F1 como nosso nó raiz

F1 contém 9 etiqueta sim e 5 sem rótulo, depois de dividir o F1, obtemos F2, que tem 6 sim / 2 Não e F3 você tem 3 sim / 3 não.

Agora, se tentarmos calcular a entropia de ambos F2 usando a fórmula de entropia …

Colocando os valores na fórmula:

86728screenshot20108-9276083

Aqui, 6 é o número de sim considerados positivos, uma vez que estamos calculando a probabilidade dividida por 8 é o total de linhas presentes em F2.

Do mesmo modo, se realizarmos Entropia para F3, obteremos 1 bit que é o caso de um atributo, uma vez que nele há 50%, sim e 50% não.

Esta divisão continuará a menos e até que obtenhamos um subconjunto puro.

O que é um Puresubset?

O subconjunto puro é uma situação em que obteremos todos sim ou todos não, neste caso.

Fizemos isso com relação a um nó, E se depois de dividir F2 pudéssemos também exigir algum outro atributo para chegar ao nó folha e também tivéssemos que pegar a entropia desses valores e adicioná-los para enviar todos os valores de entropia para aquele? temos o conceito de ganho de informação.

Ganho de informação: O ganho de informação é usado para decidir em qual função dividir em cada etapa da construção da árvore. Simplicidade é o melhor, é por isso que queremos que nossa árvore seja pequena. Para faze-lo, em cada etapa, devemos escolher a divisão que resulta nos nós filhos mais puros. Uma medida de pureza comumente usada é chamada de informação.

Para cada nó na árvore, valor da informação mede quanta informação uma característica nos dá sobre a classe. A divisão com o maior ganho de informação será considerada como a primeira divisão e o processo continuará até que todos os nós secundários sejam puros ou até que o ganho de informação seja 0.

15051screenshot20110-1797590

O algoritmo calcula o ganho de informação para cada divisão e a divisão que dá o maior valor de ganho de informação é selecionada.

Podemos dizer que em Ganho de Informação vamos calcular a média de toda entropia em função da divisão específica.

Sv = Amostra total após a divisão como em F2 há 6 sim

S = Amostra total como em F1 = 9 + 5 = 14

Agora calculando o ganho de informação:

73175screenshot20113-2733588

Desta maneira, o algoritmo fará isso por n número de divisões, e o ganho de informação para a divisão que for maior vai demorar para construir a árvore de decisão.

Quanto maior o valor do ganho de informação da divisão, quanto maior a probabilidade de que seja selecionado para a divisão particular.

Impureza de Gini:

A impureza de Gini é uma medida usada para construir árvores de decisão para determinar como as características de um conjunto de dados devem dividir os nós para formar a árvore. Mais precisamente, a impureza Gini de um conjunto de dados é um número entre 0-0,5, indicando a probabilidade de que dados novos e aleatórios sejam classificados incorretamente se eles forem atribuídos a um rótulo de classe aleatório de acordo com a distribuição de classes no conjunto de dados.

Entropia vs. Impureza Gini

O valor máximo de entropia é 1, enquanto o valor máximo de impureza Gini é 0,5.

Como o Gini Impurit

Neste artigo, cobrimos muitos detalhes sobre a árvore de decisão, como funciona e a matemática por trás disso, medidas de seleção de atributos, como Entropia, Ganho de informação, Impureza de Gini com suas fórmulas e como o algoritmo de aprendizado de máquina a resolve.

A estas alturas, Espero que você tenha uma ideia sobre a árvore de decisão, um dos melhores algoritmos de aprendizado de máquina para resolver um problema de classificação.

Como novo, Aconselho você a aprender essas técnicas e entender sua implementação e, em seguida, implementá-las em seus modelos.

para melhor compreensão, consulte https://scikit-learn.org/stable/modules/tree.html

A mídia mostrada neste artigo não é propriedade da Analytics Vidhya e é usada a critério do autor.

Assine a nossa newsletter

Nós não enviaremos SPAM para você. Nós odiamos isso tanto quanto você.