Modelagem preditiva no Excel | Como criar um modelo de regressão linear

Conteúdo

Visão geral

  • Você pode realizar modelagem preditiva no Excel em apenas algumas etapas
  • Aqui está um tutorial passo a passo sobre como construir um modelo de regressão linear no Excel e como interpretar os resultados..

Introdução

Excel para modelagem preditiva? A sério?

Em geral, essa é a primeira reação que eu recebo quando eu falo sobre isso. Isso é seguido por um olhar de descrença enquanto demonstro como podemos aproveitar a natureza flexível do Excel para criar modelos preditivos para nossos projetos de ciência de dados e análise..

Deixe-me fazer uma pergunta: se as lojas ao seu redor começaram a coletar dados de clientes, eles poderiam adotar uma estratégia baseada em dados para vender seus produtos? Você pode prever suas vendas ou estimar o número de produtos que podem ser vendidos?

linear-regression-in-excel-4513817

Agora você deve estar se perguntando como diabos eles vão construir um modelo estatístico complexo que pode prever essas coisas?. E aprender a analisar ou contratar um analista pode estar além do seu alcance.. Esta é a boa notícia: não é necessário. Microsoft Excel nos oferece a capacidade de criar modelos preditivos sem ter que escrever códigos complexos que voam sobre a cabeça da maioria das pessoas.

Podemos construir facilmente um modelo simples como regressão linear no MS Excel que pode nos ajudar a realizar análises em algumas etapas simples. E não precisamos ser mestres em Excel ou Estatística para fazer modelagem preditiva!!

Neste artigo, Vou explicar como construir um modelo de regressão linear no excel e como analisar o resultado para você se tornar um analista superstar.

Este é o sétimo artigo da minha série Excel for Analysts.. Eu recomendo fortemente a leitura dos artigos anteriores para se tornar um analista mais eficiente.:

Eu encorajo você a verificar os recursos abaixo se você for um iniciante em Excel e Business Analytics:

Tabela de conteúdo

  1. O que é regressão linear?
  2. Obtenha o importantíssimo Add Analytics ToolPak no Excel
  3. Implementação de regressão linear no Excel
  4. Interpretação dos resultados do nosso modelo preditivo
  5. Como podemos melhorar o modelo??
  6. Fazendo previsões no Excel!

O que é regressão linear?

A regressão linear é a primeira técnica de aprendizado de máquina que a maioria de nós aprende. É também a técnica de aprendizagem supervisionada mais utilizada na indústria..

Mas, o que é regressão linear?

É uma abordagem linear para modelar estatisticamente a relação entre a variável dependente (a variável que você quer prever) e as variáveis ​​independentes (os fatores usados ​​para prever). A regressão linear nos dá uma equação como esta:

equação-2599410

Aqui, temos Y como nossa variável dependente, os X's são as variáveis ​​independentes e todos os C's são os coeficientes. Os coeficientes são basicamente os pesos atribuídos às características, dependendo de sua importância.

O método mais comum para realizar a regressão é o OLS (mínimos quadrados comuns). Seu objetivo é reduzir a soma dos quadrados para produzir a linha de melhor ajuste como esta:

linear_regression_chart-4453416

Se você quiser saber mais sobre regressão linear, aqui estão alguns recursos:

Obtenha o suplemento do Excel do pacote de ferramentas de análise muito importante

Para realizar uma análise de regressão no Excel, primeiro precisamos habilitar o excel Plugin de Ferramentas de Análise. Analysis ToolPak in Excel é um programa complementar que fornece ferramentas de análise de dados para análise estatística e de engenharia.

Para adicioná-lo à sua pasta de trabalho, Siga esses passos.

Paso 1 – opções do excel

Vamos para Registros -> Escolhas:

0-8892476

Paso 2: ubicar Analytics ToolPak

Vamos para Acessórios no painel esquerdo -> Gerenciar suplementos do Excel -> Ir:

1-4-2928792

Paso 3: agregue Analytics ToolPak

Selecione os “Kit de ferramentas de análise“e pressione OK:

1-2-1-1940311

Você adicionou com sucesso o Analysis Toolkit no Excel!! Você pode conferir acessando o Dados barra na fita.

Vamos começar a construir nosso modelo preditivo no Excel!!

Implementação de regressão linear no Excel

Muitas coisas eram teóricas até agora. Agora, Vamos mergulhar no Excel e realizar análises de regressão linear!

Aqui está a declaração do problema com a qual trabalharemos:

Existe uma empresa de venda de calçados na cidade de Winden. A empresa deseja prever as vendas por meio de cada cliente considerando os seguintes fatores: receita do cliente, distância de casa para loja, frequência de operação do cliente por semana.

data-3-2255320

Paso 1: selecione Regressão

Vamos para Dados -> Análise de dados:

2-4-9123585

Vá para Análise de Dados no Kit de Ferramentas de Dados, selecione Regressão e pressione OK:

3-2-1136773

Paso 2: Selecione as opções

Nesta etapa, selecionaremos algumas das opções necessárias para nossa análise, tais como:

  • intervalo de entrada e: o intervalo do fator independente
  • intervalo de entrada x: a gama de fatores dependentes
  • faixa de saída: o intervalo de células onde você deseja exibir os resultados.

4-3-2739531

As outras opções são discricionárias e você pode selecioná-las para sua finalidade específica.

pressione OK E, finalmente, realizamos uma análise de regressão no Excel em apenas duas etapas!! Não foi tão fácil? Agora veremos o resultado da análise de regressão no Excel.

Analisando os resultados do nosso modelo preditivo no Excel

Implementar o modelo de regressão linear foi a parte fácil. Agora vem o aspecto complicado da nossa análise: interpretar resultados de modelos preditivos no Excel.

Em resumo, tenho 3 tipos de saída e vamos cobri-los um por um:

  • Tabela de estatísticas de regressão
  • Tabela ANOVA
  • Tabela de coeficientes de regressão
  • tabela residual

Tabela de estatísticas de regressão

A tabela de estatísticas de regressão nos diz quão bem a linha de melhor ajuste define a relação linear entre as variáveis ​​independentes e dependentes.. Duas das medidas mais importantes são os valores R-quadrado e R-quadrado ajustado..

a R-quadrado estatística é o indicador de qualidade de ajuste que nos diz quanta variância é explicada pela linha de melhor ajuste. O valor de R ao quadrado varia de 0 uma 1. No nosso caso, temos o valor de R ao quadrado de 0,953, o que significa que nossa linha é capaz de explicar o 95% da variância, um bom sinal.

regressão_stats-9605928

Mas há um problema: à medida que continuamos adicionando mais variáveis, nosso valor de R ao quadrado continuará aumentando mesmo que a variável não tenha efeito. R quadrado ajustado resolve esse problema e é uma métrica muito mais confiável.

Tabela ANOVA

ANOVA significa análise de variância. Esta tabela divide a soma dos quadrados em seus componentes para fornecer detalhes da variabilidade dentro do modelo.

Inclui uma métrica muito importante, Significado F (o la Valor p), que nos diz se o seu modelo é estatisticamente significativo ou não. Em poucas palavras, significa que nossos resultados provavelmente não são devidos à aleatoriedade, mas a uma causa subjacente. O limiar mais comumente usado para o valor-p é 0,05. Se obtivermos um valor menor que este, estamos prontos para começar. Pelo contrário, precisaríamos escolher outro conjunto de variáveis ​​independentes.

anova-5582018

No nosso caso, temos um valor bem abaixo do limite de 0,05. Genial, podemos seguir em frente agora!

Tabela de coeficientes de regressão

A tabela de coeficientes divide os componentes da linha de regressão na forma de coeficientes. Podemos entender muitos desses.

Para a empresa de calçados Winden, Parece que para cada unidade de aumento de entrada, a venda aumenta em 0.08 unidades, e um aumento de uma unidade de distância da loja aumenta em 508 unidades!

coeficientes-2982651

Parece que um aumento Frequência de operação queda de vendas em 24 unidades, mas podemos realmente acreditar nessa característica? Se você olhar para a imagem acima, você notará que seu valor p é maior que 0.5, o que significa que não é estatisticamente significativo. Veremos como podemos lidar com essa situação na próxima seção..

tabela residual

A tabela residual reflete o quanto o valor previsto varia do valor real. Consiste nos valores previstos pelo nosso modelo:

residuais-8832221

Como podemos melhorar nosso modelo?

Como vimos anteriormente, o valor p da variável Frequência de operação é mais que 0,05, então vamos verificar nossos resultados removendo essa variável de nossa análise.

Seguiremos todas as etapas mencionadas acima, mas não incluiremos a coluna de frequência de execução:

melhoria-5456165

Notamos que o valor ajustado do R-quadrado melhorou ligeiramente aqui 0,920 uma 0,929!

Fazendo previsões no Excel!

Temos a análise de regressão pronta, então, O que podemos fazer agora? Vamos a ver.

Um ex-cliente seu chamado Aleksander chega e queremos prever suas vendas.. Podemos simplesmente inserir o número de dados no modelo de regressão linear e estamos prontos para começar!!

Aleksander tem uma renda de 40k e mora em 2 milhas da loja. Quais são as vendas estimadas?

A equação fica:

final_equation-1853377

Aqui, Nosso modelo estimou que o Sr.. Alexandre pagaria 4218 unidades para comprar seu novo par de sapatos. Esse é o poder da regressão linear feita simplesmente no Microsoft Excel..

Notas finais

Neste artigo, aprendemos como construir um modelo de regressão linear no Excel e como interpretar os resultados. Espero que este guia o ajude a melhorar como analista de dados ou cientista de dados..

Analytics ToolPak consiste em muitas outras opções de análise no Excel. Você pode tentar muitas outras análises estatísticas em sua vida diária!!

Assine a nossa newsletter

Nós não enviaremos SPAM para você. Nós odiamos isso tanto quanto você.