Coeficientes de regressão padronizados e não padronizados

Conteúdo

Introdução

Faz tempo, Eu estava fazendo o modelo preditivo usando regressão linear e encontrei uma variável cujo coeficiente de regressão não padronizado (beta ou estimativa) perto de zero, mas depois de alguma análise, Acho que é estatisticamente significativo (significa valor p <0.05 ). Sabemos que si una variable es significativa para un modelo en particular, significa que el valor de su coeficiente es significativo y distinto de cero. Entonces, la pregunta que ocurre es "¿Por qué el valor del coeficiente es cercano a cero pero esa variable es significativa para nuestro modelo predictivo?".

A solução para essa questão está na diferença entre os coeficientes de regressão padronizados e não padronizados.. Então, neste post, veremos os conceitos básicos por trás desses coeficientes e como eles diferem uns dos outros com suas vantagens e desvantagens.

O conceito de padronização ou coeficientes padrão entra em cena quando as variáveis ​​independentes ou o preditor de um determinado modelo são expressos em unidades diferentes.. Como um exemplo, digamos que temos três características independentes, a saber, altura, idade e peso. Sua altura está em polegadas, seu peso em quilogramas e sua idade em anos. Se quisermos categorizar esses preditores com base no coeficiente não padronizado (que vem diretamente quando treinamos um modelo de regressão), não seria uma comparação justa, uma vez que as unidades para todos os preditores são diferentes.

Coeficientes de regressão não padronizados

1. O que são coeficientes de regressão não padronizados?

Os coeficientes não padronizados são aqueles produzidos pelo modelo de regressão linear após seu treinamento utilizando as variáveis ​​independentes que são medidas em suas escalas originais., Em outras palavras, nas mesmas unidades em que o conjunto de dados é obtido da fonte para treinar o modelo.

– O coeficiente não padronizado não deve ser usado para descartar ou categorizar preditores (também conhecido como variáveis ​​independentes), uma vez que não elimina a unidade de medida.

Como um exemplo, Vamos dar um exemplo hipotético em que queremos prever a receita (em rúpias) de uma pessoa com base em sua idade (em anos), altura (e cm) e peso (em kg). Então, aqui, as entradas para o nosso modelo de regressão são a idade, altura e peso, e produção é renda. Subseqüentemente,

Renda (rúpias) = A0 + a1 * era (anos) + a2 * altura (cm) + a3 * peso (kg) + e (eqn-1)

2. Como interpretar coeficientes de regressão não padronizados?

Eles são usados ​​para interpretar o efeito de cada variável independente no resultado. (responder / Saída). Sua interpretação é simples e intuitiva.

– Todas as outras variáveis ​​são mantidas constantes, uma mudança de 1 unidade em Xi (preditores) implica que há uma mudança média das unidades ai em Y (Resultado).

No exemplo acima, e a1 = 0.3, a2 = 0.2 y a3 = 0.4 (e assumimos que todos são estatisticamente significativos), então interpretamos esses coeficientes como:

Ter 1 ano está associado a um aumento em 0,3 na renda, assumindo que outras variáveis ​​são constantes (significa que não há mudança de altura e peso).

Equivalentemente, também podemos interpretar o coeficiente para outras variáveis ​​independentes.

Representa a quantidade pela qual a variável dependente muda se alterarmos a variável independente em uma unidade, mantendo as outras variáveis ​​independentes constantes..

3. Limitações de coeficientes de regressão não padronizados

– Coeficientes não padronizados são excelentes para interpretar a ligação entre uma variável independente X e um resultado Y. Apesar disto, não são úteis para comparar o efeito de uma variável independente com outra no modelo.

– Como um exemplo, Qual variável tem maior impacto na receita, idade, altura ou peso?

Podemos tentar responder a esta pergunta olhando para a equação 1 e novamente assumir que a1 = 0.3, a2 = 0.2 y a3 = 0.4, concluimos que:

“Um aumento de 20 cm de altura tem o mesmo efeito no ganho de peso 10 vezes”

Ainda assim, Isso não responde à questão de qual variável afeta mais a renda.

Especificamente, a alegação de que “o efeito do ganho de peso sobre 10 vezes = o efeito do aumento na altura de 20 cm ”não faz sentido sem especificar o quão difícil é aumentar a altura em 20 cm, especificamente para alguém não familiarizado com esta escala.

Então, por último, concluímos que uma comparação direta dos coeficientes de regressão para qualquer uma das duas variáveis ​​independentes não faz sentido ou não é útil, uma vez que essas variáveis ​​independentes estão em escalas diferentes (idade em anos, peso em kg e altura em cm).

Acontece que os efeitos dessas variáveis ​​podem ser comparados usando a versão padronizada de seus coeficientes. E é isso que vamos discutir a seguir.

Coeficientes de regressão padronizados

1. O que são coeficientes de regressão padronizados?

Os coeficientes de regressão padronizados são obtidos por treinamento (ou correndo) um modelo de regressão linear na forma padronizada das variáveis.

Variáveis ​​padronizadas são calculadas subtraindo a média e dividindo pelo desvio padrão de cada observação., Em outras palavras, calculando a pontuação Z. Eu significaria 0 e desvio padrão 1. Então, eles não representam suas escalas originais, uma vez que não têm uma unidade.

Para cada observação “j” da variável X, calculamos a pontuação z usando a fórmula:

fórmula de pontuação z

2. Quais variáveis ​​temos que padronizar para encontrar os coeficientes de regressão padronizados, Em outras palavras, o preditor e a solução ou qualquer um deles?

sim, padronizamos ambas as variáveis ​​dependentes (responder) como os independentes (preditoras) antes de executar o modelo de regressão linear (uma vez que esta é a prática amplamente aceita quando queremos encontrar a forma padronizada das variáveis).

3. Como interpretar coeficientes de regressão padronizados?

A interpretação dos coeficientes de regressão padronizados não é intuitiva em comparação com suas versões não padronizadas:

Uma mudança de 1 o desvio padrão em X está associado a uma mudança nos desvios padrão β de Y.

Observação:

– Se houver uma variável categórica em vez de uma variável numérica em nossa análise, então seu coeficiente padronizado não pode ser interpretado, uma vez que não faz sentido mudar X para 1 Desvio padrão. Em geral, isso não é um obstáculo para o nosso modelo, uma vez que esses coeficientes não devem ser interpretados individualmente, mas para serem comparados uns com os outros para ter uma ideia da relevância de cada variável no modelo de regressão linear.

O coeficiente padronizado é medido em unidades de desvio padrão. Um valor beta de 2.25 indica que uma mudança de um desvio padrão na variável independente resulta em um aumento de 2.25 desvios padrão na variável dependente.

4. Qual é o uso real de coeficientes padronizados?

Eles são usados ​​principalmente para categorizar preditores (o variáveis ​​independentes ou explicativas) uma vez que eliminam as unidades de medida das variáveis ​​independentes e dependentes). Podemos categorizar as variáveis ​​independentes com um valor absoluto de coeficientes padronizados. A variável mais importante terá o valor absoluto máximo do coeficiente padronizado.

Como um exemplo:

Y = β0 + b1 X1 + b2 X2 + e

Se os coeficientes padronizados β1 = 0.5 y β2 = 1, nos podemos concluir que:

X2 é duas vezes mais importante que X1 na previsão de Y, assumindo que tanto X1 e X2 seguem aproximadamente a mesma distribuição e seus desvios padrão não são tão diferentes.

5. Limitações dos coeficientes de regressão padronizados

Coeficientes padronizados são enganosos se as variáveis ​​no modelo têm desvios padrão diferentes, isso significa que todas as variáveis ​​têm distribuições diferentes.

Dê uma olhada na próxima equação de regressão linear:

Renda ($) = β0 + b1 Era (anos) + b2 Experiência (anos) + e

Porque nossas variáveis ​​independentes Idade e Experiência estão na mesma escala (anos) e se for razoável supor que seus desvios-padrão diferem muito, então para este caso:

– Seus coeficientes não padronizados devem ser usados ​​para comparar sua relevância / influência no modelo.

– Padronizar essas variáveis ​​faria, na realidade, que estavam em uma escala diferente (desvios padrão diferentes ou segue uma distribuição diferente)

Cálculo de coeficientes padronizados

1. Para regressão linear (outra abordagem, já que vemos um foco na parte anterior da postagem)

O coeficiente padronizado é obtido multiplicando o coeficiente não padronizado pela razão dos desvios padrão da variável independente e da variável dependente..

PADRONIZADO vs NÃO PADRONIZADO para a fórmula de regressão linear

2. Para regressão logística

Regressão logística PADRONIZADA NÃO PADRONIZADA

Notas finais

Esta postagem cobriu alguns conceitos básicos, mas necessários, ao trabalhar em um projeto da vida real em aprendizado de máquina e inteligência artificial.. Espero que você tenha entendido muito bem os conceitos explicados neste post. Neste post na última parte, Vemos apenas a formulação relacionada aos conceitos, mas não nos aprofundamos muito na matemática por trás deles, Discutiremos essa parte em algum outro post.

Se você tiver quaisquer perguntas, Deixe-me saber na seção de comentários!

A mídia mostrada nesta postagem não é propriedade da DataPeaker e é usada a critério do autor.

Assine a nossa newsletter

Nós não enviaremos SPAM para você. Nós odiamos isso tanto quanto você.