Visão geral
- Você pode realizar modelagem preditiva no Excel em apenas algumas etapas
- Aqui está um tutorial passo a passo sobre como construir um modelo de regressão linear no Excel e como interpretar os resultados..
Introdução
Excel para modelagem preditiva? A sério?
Em geral, essa é a primeira reação que eu recebo quando eu falo sobre isso. Isso é seguido por um olhar de descrença enquanto demonstro como podemos aproveitar a natureza flexível do Excel para criar modelos preditivos para nossos projetos de ciência de dados e análise..
Deixe-me fazer uma pergunta: se as lojas ao seu redor começaram a coletar dados de clientes, eles poderiam adotar uma estratégia baseada em dados para vender seus produtos? Você pode prever suas vendas ou estimar o número de produtos que podem ser vendidos?
Agora você deve estar se perguntando como diabos eles vão construir um modelo estatístico complexo que pode prever essas coisas?. E aprender a analisar ou contratar um analista pode estar além do seu alcance.. Esta é a boa notícia: não é necessário. Microsoft Excel nos oferece a capacidade de criar modelos preditivos sem ter que escrever códigos complexos que voam sobre a cabeça da maioria das pessoas.
Podemos construir facilmente um modelo simples como regressão linear no MS Excel que pode nos ajudar a realizar análises em algumas etapas simples. E não precisamos ser mestres em Excel ou Estatística para fazer modelagem preditiva!!
Neste artigo, Vou explicar como construir um modelo de regressão linear no excel e como analisar o resultado para você se tornar um analista superstar.
Este é o sétimo artigo da minha série Excel for Analysts.. Eu recomendo fortemente a leitura dos artigos anteriores para se tornar um analista mais eficiente.:
Eu encorajo você a verificar os recursos abaixo se você for um iniciante em Excel e Business Analytics:
Tabela de conteúdo
- O que é regressão linear?
- Obtenha o importantíssimo Add Analytics ToolPak no Excel
- Implementação de regressão linear no Excel
- Interpretação dos resultados do nosso modelo preditivo
- Como podemos melhorar o modelo??
- Fazendo previsões no Excel!
O que é regressão linear?
A regressão linear é a primeira técnica de aprendizado de máquina que a maioria de nós aprende. También es la técnica de aprendizagem supervisionadaO aprendizado supervisionado é uma abordagem de aprendizado de máquina em que um modelo é treinado usando um conjunto de dados rotulados. Cada entrada no conjunto de dados está associada a uma saída conhecida, permitindo que o modelo aprenda a prever resultados para novas entradas. Este método é amplamente utilizado em aplicações como classificação de imagens, Reconhecimento de fala e previsão de tendências, destacando sua importância em... más utilizada en la industria.
Mas, o que é regressão linear?
Es un enfoque lineal para modelar estadísticamente la relación entre la variávelEm estatística e matemática, uma "variável" é um símbolo que representa um valor que pode mudar ou variar. Existem diferentes tipos de variáveis, e qualitativo, que descrevem características não numéricas, e quantitativo, representando quantidades numéricas. Variáveis são fundamentais em experimentos e estudos, uma vez que permitem a análise de relações e padrões entre diferentes elementos, facilitando a compreensão de fenômenos complexos.... dependente (a variável que você quer prever) e as variáveis independentes (os fatores usados para prever). A regressão linear nos dá uma equação como esta:
Aqui, temos Y como nossa variável dependente, os X's são as variáveis independentes e todos os C's são os coeficientes. Os coeficientes são basicamente os pesos atribuídos às características, dependendo de sua importância.
O método mais comum para realizar a regressão é o OLS (mínimos quadrados comuns). Seu objetivo é reduzir a soma dos quadrados para produzir a linha de melhor ajuste como esta:
Se você quiser saber mais sobre regressão linear, aqui estão alguns recursos:
Obtenha o suplemento do Excel do pacote de ferramentas de análise muito importante
Para realizar uma análise de regressão no Excel, primeiro precisamos habilitar o excel Plugin de Ferramentas de Análise. Analysis ToolPak in Excel é um programa complementar que fornece ferramentas de análise de dados para análise estatística e de engenharia.
Para adicioná-lo à sua pasta de trabalho, Siga esses passos.
Paso 1 – opções do excel
Vamos para Registros -> Escolhas:
Paso 2: ubicar Analytics ToolPak
Vamos para Acessórios no painelUm painel é um grupo de especialistas que se reúne para discutir e analisar um tópico específico. Esses fóruns são comuns em conferências, Seminários e debates públicos, onde os participantes compartilham seus conhecimentos e perspectivas. Os painéis podem abordar uma variedade de áreas, Da ciência à política, e seu objetivo é incentivar a troca de ideias e a reflexão crítica entre os participantes.... izquierdo -> Gerenciar suplementos do Excel -> Ir:
Paso 3: agregue Analytics ToolPak
Selecione os “Kit de ferramentas de análise“e pressione OK:
Você adicionou com sucesso o Analysis Toolkit no Excel!! Você pode conferir acessando o Dados barra na fita.
Vamos começar a construir nosso modelo preditivo no Excel!!
Implementação de regressão linear no Excel
Muitas coisas eram teóricas até agora. Agora, Vamos mergulhar no Excel e realizar análises de regressão linear!
Aqui está a declaração do problema com a qual trabalharemos:
Existe uma empresa de venda de calçados na cidade de Winden. A empresa deseja prever as vendas por meio de cada cliente considerando os seguintes fatores: receita do cliente, distância de casa para loja, frequência de operação do cliente por semana.
Paso 1: selecione Regressão
Vamos para Dados -> Análise de dados:
Vá para Análise de Dados no Kit de Ferramentas de Dados, selecione Regressão e pressione OK:
Paso 2: Selecione as opções
Nesta etapa, selecionaremos algumas das opções necessárias para nossa análise, tais como:
- intervalo de entrada e: o intervalo do fator independente
- intervalo de entrada x: a gama de fatores dependentes
- faixa de saída: o intervalo de células onde você deseja exibir os resultados.
As outras opções são discricionárias e você pode selecioná-las para sua finalidade específica.
pressione OK E, finalmente, realizamos uma análise de regressão no Excel em apenas duas etapas!! Não foi tão fácil? Agora veremos o resultado da análise de regressão no Excel.
Analisando os resultados do nosso modelo preditivo no Excel
Implementar o modelo de regressão linear foi a parte fácil. Agora vem o aspecto complicado da nossa análise: interpretar resultados de modelos preditivos no Excel.
Em resumo, tenho 3 tipos de saída e vamos cobri-los um por um:
- Tabela de estatísticas de regressão
- Tabela ANOVA
- Tabela de coeficientes de regressão
- tabela residual
Tabela de estatísticas de regressão
A tabela de estatísticas de regressão nos diz quão bem a linha de melhor ajuste define a relação linear entre as variáveis independentes e dependentes.. Duas das medidas mais importantes são os valores R-quadrado e R-quadrado ajustado..
a R-quadrado estatística é o indicador de qualidade de ajuste que nos diz quanta variância é explicada pela linha de melhor ajuste. O valor de R ao quadrado varia de 0 uma 1. No nosso caso, temos o valor de R ao quadrado de 0,953, o que significa que nossa linha é capaz de explicar o 95% da variância, um bom sinal.
Mas há um problema: uma mediro "medir" É um conceito fundamental em várias disciplinas, que se refere ao processo de quantificação de características ou magnitudes de objetos, Fenômenos ou situações. Na matemática, Usado para determinar comprimentos, Áreas e volumes, enquanto nas ciências sociais pode se referir à avaliação de variáveis qualitativas e quantitativas. A precisão da medição é crucial para obter resultados confiáveis e válidos em qualquer pesquisa ou aplicação prática.... que seguimos agregando más variables, nosso valor de R ao quadrado continuará aumentando mesmo que a variável não tenha efeito. R quadrado ajustado resolve esse problema e é uma métrica muito mais confiável.
Tabela ANOVA
ANOVA significa análise de variância. Esta tabela divide a soma dos quadrados em seus componentes para fornecer detalhes da variabilidade dentro do modelo.
Inclui uma métrica muito importante, Significado F (o la Valor p), que nos diz se o seu modelo é estatisticamente significativo ou não. Em poucas palavras, significa que nossos resultados provavelmente não são devidos à aleatoriedade, mas a uma causa subjacente. O limiar mais comumente usado para o valor-p é 0,05. Se obtivermos um valor menor que este, estamos prontos para começar. Pelo contrário, precisaríamos escolher outro conjunto de variáveis independentes.
No nosso caso, temos um valor bem abaixo do limite de 0,05. Genial, podemos seguir em frente agora!
Tabela de coeficientes de regressão
A tabela de coeficientes divide os componentes da linha de regressão na forma de coeficientes. Podemos entender muitos desses.
Para a empresa de calçados Winden, Parece que para cada unidade de aumento de entrada, a venda aumenta em 0.08 unidades, e um aumento de uma unidade de distância da loja aumenta em 508 unidades!
Parece que um aumento Frequência de operação queda de vendas em 24 unidades, mas podemos realmente acreditar nessa característica? Se você olhar para a imagem acima, você notará que seu valor p é maior que 0.5, o que significa que não é estatisticamente significativo. Veremos como podemos lidar com essa situação na próxima seção..
tabela residual
A tabela residual reflete o quanto o valor previsto varia do valor real. Consiste nos valores previstos pelo nosso modelo:
Como podemos melhorar nosso modelo?
Como vimos anteriormente, o valor p da variável Frequência de operação é mais que 0,05, então vamos verificar nossos resultados removendo essa variável de nossa análise.
Seguiremos todas as etapas mencionadas acima, mas não incluiremos a coluna de frequência de execução:
Notamos que o valor ajustado do R-quadrado melhorou ligeiramente aqui 0,920 uma 0,929!
Fazendo previsões no Excel!
Temos a análise de regressão pronta, então, O que podemos fazer agora? Vamos a ver.
Um ex-cliente seu chamado Aleksander chega e queremos prever suas vendas.. Podemos simplesmente inserir o número de dados no modelo de regressão linear e estamos prontos para começar!!
Aleksander tem uma renda de 40k e mora em 2 milhas da loja. Quais são as vendas estimadas?
A equação fica:
Aqui, Nosso modelo estimou que o Sr.. Alexandre pagaria 4218 unidades para comprar seu novo par de sapatos. Esse é o poder da regressão linear feita simplesmente no Microsoft Excel..
Notas finais
Neste artigo, aprendemos como construir um modelo de regressão linear no Excel e como interpretar os resultados. Espero que este guia o ajude a melhorar como analista de dados ou cientista de dados..
Analytics ToolPak consiste em muitas outras opções de análise no Excel. Você pode tentar muitas outras análises estatísticas em sua vida diária!!