A árvore começa com o nóO Nodo é uma plataforma digital que facilita a conexão entre profissionais e empresas em busca de talentos. Através de um sistema intuitivo, permite que os usuários criem perfis, Compartilhar experiências e acessar oportunidades de trabalho. Seu foco em colaboração e networking torna o Nodo uma ferramenta valiosa para quem deseja expandir sua rede profissional e encontrar projetos que se alinhem com suas habilidades e objetivos.... raiz que consiste nos dados completos e, subseqüentemente, use estratégias inteligentes para dividir os nós em vários ramos.
O conjunto de dados original foi dividido em subconjuntos neste processo.
Para responder à pergunta fundamental, seu cérebro inconsciente faz alguns cálculos (à luz dos exemplos de perguntas registradas abaixo) e acaba comprando a quantidade necessária de leite. É normal ou durante a semana?
Em dias úteis exigimos 1 litro de leite.
É fim de semana? Nos finais de semana precisamos 1,5 litros de leite.
É correto dizer que estamos antecipando convidados hoje? Precisamos comprar 250 ML adicional de leite para cada hóspede, e assim por diante.
Antes de pular para a ideia hipotética de árvores de decisão, Que tal explicarmos inicialmente o que são árvores de decisão? é mais, Por que seria uma boa ideia usá-los?
Por que usar árvores de decisão?
Entre outros métodos de aprendizagem supervisionadaO aprendizado supervisionado é uma abordagem de aprendizado de máquina em que um modelo é treinado usando um conjunto de dados rotulados. Cada entrada no conjunto de dados está associada a uma saída conhecida, permitindo que o modelo aprenda a prever resultados para novas entradas. Este método é amplamente utilizado em aplicações como classificação de imagens, Reconhecimento de fala e previsão de tendências, destacando sua importância em..., algoritmos baseados em árvore excel. Estes são modelos preditivos com maior precisão e compreensão simples.
Como funciona a árvore de decisão?
Existem diferentes algoritmos escritos para montar uma árvore de decisão, que pode ser usado para o problema.
Alguns dos algoritmos mais comumente usados estão listados abaixo:
• CARRINHO
• ID3
• C4.5
• CHAID
Agora vamos explicar sobre o algoritmo CHAID passo a passo. Antes disso, vamos falar um pouco sobre chi_square.
chi_square
Qui-Quadrado é um mediro "medir" É um conceito fundamental em várias disciplinas, que se refere ao processo de quantificação de características ou magnitudes de objetos, Fenômenos ou situações. Na matemática, Usado para determinar comprimentos, Áreas e volumes, enquanto nas ciências sociais pode se referir à avaliação de variáveis qualitativas e quantitativas. A precisão da medição é crucial para obter resultados confiáveis e válidos em qualquer pesquisa ou aplicação prática.... Estatísticas para encontrar a diferença entre nós filho e primário. Para calcular isso, Encontramos a diferença entre as contagens observadas e esperadas do variávelEm estatística e matemática, uma "variável" é um símbolo que representa um valor que pode mudar ou variar. Existem diferentes tipos de variáveis, e qualitativo, que descrevem características não numéricas, e quantitativo, representando quantidades numéricas. Variáveis são fundamentais em experimentos e estudos, uma vez que permitem a análise de relações e padrões entre diferentes elementos, facilitando a compreensão de fenômenos complexos.... alvo para cada nó e a soma ao quadrado dessas diferenças padronizadas nos dará o valor do qui-quadrado.
Fórmula
Para encontrar a característica mais dominante, testes qui-quadrado usarão, o que também é chamado de CHAID, enquanto ID3 usa ganho de informação, C4.5 usa a taxa de ganho e o CART usa o índiceo "Índice" É uma ferramenta fundamental em livros e documentos, que permite localizar rapidamente as informações desejadas. Geralmente, é apresentado no início de um trabalho e organiza os conteúdos de forma hierárquica, incluindo capítulos e seções. Sua correta preparação facilita a navegação e melhora a compreensão do material, tornando-se um recurso essencial para estudantes e profissionais de várias áreas.... GINI.
Hoje em dia, a maioria das bibliotecas de programação (por exemplo, Pandas para Python) usar a métrica pearson para correlação por padrão.
A fórmula qui-quadrado: –
√ ((e – y ')2 / y ')
onde e é real e esperado e '.
Conjunto de dados
Vamos construir regras de decisão para o seguinte conjunto de dados. A coluna de decisão é o objetivo que gostaríamos de encontrar com base em algumas características.
Por certo, vamos ignorar a coluna do dia, porque é apenas o número de linha.
para ler o conjunto de dados de implementação python a partir do arquivo CSV abaixo: –
import pandas as pd
data = pd.read_csv("conjunto de dados.csv")
data.head()
Precisamos encontrar o recurso mais importante nas colunas de destino para escolher o nó para dividir os dados neste conjunto de dados.
Característica de umidade
Existem dois tipos de classe presentes nas colunas de umidade: alto e normal. Agora vamos calcular os valores de chi_square para eles.
sim | Não | Total | Esperado | Qui-quadrado sim | Qui-quadrado Não | |
Alto | 3 | 4 | 7 | 3,5 | 0,267 | 0,267 |
baixo | 6 | 1 | 7 | 3,5 | 1.336 | 1.336 |
Para cada fila, a coluna total é a soma das decisões sim e não. Metade da coluna total é chamada de valores esperados porque há 2 classes de decisão. É fácil calcular os valores do qui-quadrado com base nesta tabela..
Por exemplo,
qui-quadrado sim para alta umidade é √ ((3- 3,5)2 / 3,5) = 0,267
enquanto o real é 3 e o esperado é 3,5.
Então, o valor qui-quadrado da característica de umidade é
= 0,267 + 0,267 + 1,336 + 1,336
= 3.207
Agora, também encontraremos valores de qui-quadrado para outras características. A característica com o valor máximo do qui-quadrado será o ponto de decisão. E a função do vento?
Característica do vento
Existem dois tipos de classe presentes nas colunas de vento: fraco e forte. A tabela a seguir é a seguinte.
Aqui, o valor de teste qui-quadrado da característica do vento é
= 0,802 + 0,802 + 0 + 0
= 1,604
Este também é um valor menor que o valor qui-quadrado da umidade. E a função de temperatura?
Característica de temperatura
Existem três tipos de classe presentes nas colunas de temperatura: quente, frio e suave. A tabela a seguir é a seguinte.
Aqui, o valor de teste qui-quadrado da característica de temperatura é
= 0 + 0 + 0,577 + 0,577 + 0,707 + 0,707
= 2.569
Este é um valor menor que o valor qui-quadrado da umidade e também maior que o valor qui-quadrado do vento. E quanto à função Outlook?
Recurso Outlook
Existem três tipos de classes presentes nas colunas de temperatura: ensolarado, chuvoso e nublado. A tabela a seguir é a seguinte.
Aqui, o valor do teste qui-quadrado da função perspectiva é
= 0,316 + 0,316 + 1,414 + 1,414 + 0,316 + 0,316
= 4.092
Calculamos os valores qui-quadrado de todas as características. Vamos ver todos eles em uma mesa.
Como se vê, a coluna do Outlook tem o maior e o maior valor qui-quadrado. Isso implica que é a principal característica do componente. Junto com esses valores, vamos colocar esse recurso no nó raiz.
Separamos as informações brutas com base nas classes do Outlook na ilustração acima. Por exemplo, o ramo nublado simplesmente tem uma decisão afirmativa sobre o conjunto de dados de subinformação. Isso implica que a árvore CHAID retornará SIM se o panorama estiver nublado.
Os galhos ensolarados e chuvosos têm decisões sim e não. Vamos aplicar testes de qui-quadrado para esses conjuntos de dados subinformativos.
Outlook = ramo ensolarado
Esta filial tem 5 exemplos. Atualmente, procuramos a característica mais predominante. Por certo, vamos ignorar a função Outlook agora, já que eles são completamente iguais. No final do dia, vamos encontrar as colunas mais predominantes entre a temperatura, umidade e vento.
Função de umidade para quando o panorama está ensolarado
O valor qui-quadrado da característica de umidade para uma perspectiva ensolarada é
= 1,225 + 1,225 + 1 + 1
= 4.449
Função de vento para quando o panorama está ensolarado
O valor qui-quadrado da característica do vento para a perspectiva do sol é
= 0,408 + 0,408 + 0 + 0
= 0,816
Função de temperatura para quando o panorama está ensolarado
Então, o valor qui-quadrado da característica de temperatura para a perspectiva ensolarada é
= 1 + 1 + 0 + 0 + 0,707 + 0,707
= 3.414
Encontramos valores de qui-quadrado para a perspectiva ensolarada. Vamos ver todos eles em uma mesa.
Na atualidade, a umidade é a característica mais predominante do ramo do gazebo ensolarado. Vamos colocar essa característica como uma regra de decisão.
Atualmente, ambos os ramos de umidade para a perspectiva ensolarada têm apenas uma decisão conforme descrito acima. A árvore CHAID retornará NÃO para uma perspectiva ensolarada e alta umidade e retornará SIM para uma perspectiva ensolarada e umidade normal.
Ramo de perspectiva de chuva
Na realidade, este ramo tem decisões positivas e negativas. Precisamos aplicar o teste do qui-quadrado para este ramo para encontrar uma decisão precisa. Esta filial tem 5 instâncias diferentes, conforme demonstrado no conjunto de dados de coleta de subinformações em anexo. Que tal descobrirmos a característica mais predominante entre a temperatura, umidade e vento?
Função de vento para previsão de chuva
Existem dois tipos de classe presentes na característica do vento para a perspectiva da chuva: fraco e forte.
Então, o valor qui-quadrado da característica do vento para a perspectiva da chuva é
= 1,225 + 1,225 + 1 + 1
= 4.449
Função de umidade para previsão de chuva
Existem dois tipos de classe presentes na característica de umidade para a perspectiva da chuva: alto e normal.
O valor qui-quadrado da característica de umidade para a perspectiva da chuva é
= 0 + 0 + 0.408 + 0.408
= 0,816
Características de temperatura para previsão de chuva
Existem dois tipos de classes presentes nas características de temperatura para a perspectiva da chuva, como quente e frio.
O valor qui-quadrado da característica de temperatura para a perspectiva da chuva é
= 0 + 0 + 0.408 + 0.408
= 0,816
Descobrimos que todos os valores de qui-quadrado para chuva são o ramo de perspectiva. Vamos ver todos eles em uma mesa.
Portanto, a função do vento é o vencedor da chuva é o ramo de perspectiva. Coloque esta coluna na ramificação conectada e visualize o conjunto de dados subinformativo correspondente.
Como se vê, todos os ramos têm conjuntos de dados subinformativos com uma única decisão, tipo sim ou não. Desta maneira, podemos gerar a árvore CHAID conforme ilustrado abaixo.
A forma final da árvore CHAID.
Implementación en Python de un árbol de decisões usando CHAID
from chefboost import Chefboost as cb
import pandas as pd
data = pd.read_csv("/home/kajal/Downloads/weather.csv")
data.head()
config = {"algoritmo": "CHAID"} árvore = cb.fit(dados, config)
árbol
# test_instance = ['ensolarado','quente','alto','fraco','não'] test_instance = data.iloc[2] test_instance
cb.predict(árvore,test_instance) saída:- 'Yes' #obj[0]: perspectiva, Obj[1]: temperatura, Obj[2]: humidade, Obj[3]: ventoso # {"recurso": "perspectiva", "Instâncias": 14, "metric_value": 4.0933, "profundidade": 1} def encontrarDecision(Obj): se obj[0] == 'chuvoso': # {"recurso": " ventoso", "Instâncias": 5, "metric_value": 4.4495, "profundidade": 2} se obj[3] == 'fraco': return 'yes' elif obj[3] == 'forte': return 'no' else: return 'no' elif obj[0] == 'ensolarado': # {"recurso": " humidade", "Instâncias": 5, "metric_value": 4.4495, "profundidade": 2} se obj[2] == 'alto': return 'no' elif obj[2] == 'normal': return 'yes' else: return 'yes' elif obj[0] == 'nublado': return 'yes' else: retornar 'sim'
conclusão
Portanto, criamos uma árvore de decisão CHAID do zero para terminar neste post. O CHAID usa uma métrica de medição qui-quadrado para descobrir o recurso mais importante e aplicá-lo recursivamente até que os conjuntos de dados subinformativos tenham uma única decisão.. Embora este seja um algoritmo de árvore de decisão herdado, ainda é o mesmo processo para questões de classificação.
A mídia mostrada neste artigo não é propriedade da DataPeaker e é usada a critério do autor.