Este artigo foi publicado como parte do Data Science Blogathon.
Visão geral
- Saiba mais sobre o algoritmo de árvore de decisão em aprendizado de máquina para problemas de classificação.
- aqui nós cobrimos entropia, ganho de informação e impureza de Gini
Algoritmo de árvore de decisão
algoritmos. Isso pode ser usado tanto para um problema de classificação quanto para um problema de regressão.
O objetivo deste algoritmo é criar um modelo que preveja o valor de uma variável de destino, para o qual a árvore de decisão usa a representação da árvore para resolver o problema em que o nó folha corresponde a um rótulo de classe e os atributos são representados no nó interno. da árvore.
Vamos pegar um conjunto de dados de amostra para ir mais longe ....
Suponha que temos uma amostra de 14 conjuntos de dados do paciente e temos que prever qual medicamento sugerir ao paciente A ou B.
Digamos que escolhemos o colesterol como o primeiro atributo para dividir os dados
Ele vai dividir nossos dados em dois ramos Alto e Normal de acordo com o colesterol, como puede ver en la figura"Figura" é um termo usado em vários contextos, Da arte à anatomia. No campo artístico, refere-se à representação de formas humanas ou animais em esculturas e pinturas. Em anatomia, designa a forma e a estrutura do corpo. O que mais, em matemática, "figura" está relacionado a formas geométricas. Sua versatilidade o torna um conceito fundamental em várias disciplinas.... anterior.
Suponha que nosso novo paciente tenha colesterol alto da divisão acima de nossos dados que não podemos dizer qualquer O medicamento B ou A será apropriado para o paciente.
O que mais, se o colesterol do paciente é normal, ainda não temos uma ideia ou informação para determinar se o medicamento A ou B é adequado para o paciente.
Vamos dar outra era de atributo, como podemos ver, idade tem três categorias: Homem jovem, medianaA mediana é uma medida estatística que representa o valor central de um conjunto de dados ordenados. Para calculá-lo, Os dados são organizados do menor para o maior e o número no meio é identificado. Se houver um número par de observações, Os dois valores principais são calculados em média. Este indicador é especialmente útil em distribuições assimétricas, uma vez que não é afetado por valores extremos.... edad y mayor, vamos tentar dividir.
Da figura anterior, agora podemos dizer que podemos prever facilmente qual medicamento administrar a um paciente com base em seus relatórios.
Suposições que fazemos ao usar a árvore de decisão:
– No princípio, consideramos todo el conjunto de TreinamentoO treinamento é um processo sistemático projetado para melhorar as habilidades, Conhecimento ou habilidades físicas. É aplicado em várias áreas, como esporte, Educação e desenvolvimento profissional. Um programa de treinamento eficaz inclui planejamento de metas, prática regular e avaliação do progresso. A adaptação às necessidades individuais e a motivação são fatores-chave para alcançar resultados bem-sucedidos e sustentáveis em qualquer disciplina.... como la raíz.
-Valores característicos são preferidos para serem categóricos, se os valores continuarem, são convertidos em discretos antes de construir o modelo.
-Com base em valores de atributo, os registros são distribuídos recursivamente.
-Utilizamos un método estadístico para ordenar atributos como nóO Nodo é uma plataforma digital que facilita a conexão entre profissionais e empresas em busca de talentos. Através de um sistema intuitivo, permite que os usuários criem perfis, Compartilhar experiências e acessar oportunidades de trabalho. Seu foco em colaboração e networking torna o Nodo uma ferramenta valiosa para quem deseja expandir sua rede profissional e encontrar projetos que se alinhem com suas habilidades e objetivos.... raíz o nodo interno.
Matemática por trás do algoritmo da árvore de decisão: Antes de passar para o ganho de informação, primeiro temos que entender a entropia.
Entropia: Entropia são as medidas de impureza, transtorno, o incerteza em muitos exemplos.
Objetivo da entropia:
A entropia controla como uma árvore de decisão decide separar os dados. Afeta como um Árvore de decisão desenhe seus limites.
"Os valores de entropia variam de 0 a 1 ”, menos o valor de entropia é mais confiável.
Suponha que temos as características F1, F2, F3, selecionamos a característica F1 como nosso nó raiz
F1 contém 9 etiqueta sim e 5 sem rótulo, depois de dividir o F1, obtemos F2, que tem 6 sim / 2 Não e F3 você tem 3 sim / 3 não.
Agora, se tentarmos calcular a entropia de ambos F2 usando a fórmula de entropia …
Colocando os valores na fórmula:
Aqui, 6 é o número de sim considerados positivos, uma vez que estamos calculando a probabilidade dividida por 8 é o total de linhas presentes em F2.
Do mesmo modo, se realizarmos Entropia para F3, obteremos 1 bit que é o caso de um atributo, uma vez que nele há 50%, sim e 50% não.
Esta divisão continuará a menos e até que obtenhamos um subconjunto puro.
O que é um Puresubset?
O subconjunto puro é uma situação em que obteremos todos sim ou todos não, neste caso.
Fizemos isso com relação a um nó, E se depois de dividir F2 pudéssemos também exigir algum outro atributo para chegar ao nó folha e também tivéssemos que pegar a entropia desses valores e adicioná-los para enviar todos os valores de entropia para aquele? temos o conceito de ganho de informação.
Ganho de informação: O ganho de informação é usado para decidir em qual função dividir em cada etapa da construção da árvore. Simplicidade é o melhor, é por isso que queremos que nossa árvore seja pequena. Para faze-lo, em cada etapa, devemos escolher a divisão que resulta nos nós filhos mais puros. UMA mediro "medir" É um conceito fundamental em várias disciplinas, que se refere ao processo de quantificação de características ou magnitudes de objetos, Fenômenos ou situações. Na matemática, Usado para determinar comprimentos, Áreas e volumes, enquanto nas ciências sociais pode se referir à avaliação de variáveis qualitativas e quantitativas. A precisão da medição é crucial para obter resultados confiáveis e válidos em qualquer pesquisa ou aplicação prática.... de pureza comúnmente utilizada se llama información.
Para cada nó na árvore, valor da informação mede quanta informação uma característica nos dá sobre a classe. A divisão com o maior ganho de informação será considerada como a primeira divisão e o processo continuará até que todos os nós secundários sejam puros ou até que o ganho de informação seja 0.
O algoritmo calcula o ganho de informação para cada divisão e a divisão que dá o maior valor de ganho de informação é selecionada.
Podemos dizer que em Ganho de Informação vamos calcular a média de toda entropia em função da divisão específica.
Sv = Amostra total após a divisão como em F2 há 6 sim
S = Amostra total como em F1 = 9 + 5 = 14
Agora calculando o ganho de informação:
Desta maneira, o algoritmo fará isso por n número de divisões, e o ganho de informação para a divisão que for maior vai demorar para construir a árvore de decisão.
Quanto maior o valor do ganho de informação da divisão, quanto maior a probabilidade de que seja selecionado para a divisão particular.
Impureza de Gini:
A impureza de Gini é uma medida usada para construir árvores de decisão para determinar como as características de um conjunto de dados devem dividir os nós para formar a árvore. Mais precisamente, a impureza Gini de um conjunto de dados é um número entre 0-0,5, indicando a probabilidade de que dados novos e aleatórios sejam classificados incorretamente se eles forem atribuídos a um rótulo de classe aleatório de acordo com a distribuição de classes no conjunto de dados.
Entropia vs. Impureza Gini
O valor máximo de entropia é 1, enquanto o valor máximo de impureza Gini é 0,5.
Como o Gini Impurit
Neste artigo, cobrimos muitos detalhes sobre a árvore de decisão, como funciona e a matemática por trás disso, medidas de seleção de atributos, como Entropia, Ganho de informação, Impureza de Gini com suas fórmulas e como o algoritmo de aprendizado de máquina a resolve.
A estas alturas, Espero que você tenha uma ideia sobre a árvore de decisão, um dos melhores algoritmos de aprendizado de máquina para resolver um problema de classificação.
Como novo, Aconselho você a aprender essas técnicas e entender sua implementação e, em seguida, implementá-las em seus modelos.
para melhor compreensão, consulte https://scikit-learn.org/stable/modules/tree.html
A mídia mostrada neste artigo não é propriedade da Analytics Vidhya e é usada a critério do autor.
Relacionado
Postagens Relacionadas:
- Classificação da árvore de decisão | Guia de classificação de árvore de decisão
- Métodos de divisão de árvore de decisão | Aprendizado de máquina de árvore de decisão
- Algoritmo de aprendizado de máquina online | Aprendizagem online vs aprendizagem em lote
- Árvore de Decisão Weka | Crie uma árvore de decisão com Weka