Regressão linear versus logística | Regressão linear e logística

Conteúdo

Este artigo foi publicado como parte do Data Science Blogathon.

Introdução

Vou discutir este tópico em detalhes abaixo.

Etapas de regressão linear

Como o nome sugere, a ideia por trás da realização da regressão linear é que devemos chegar a uma equação linear que descreve a relação entre variáveis dependentes e independentes..

Paso 1

Suponha que temos um conjunto de dados onde x é a variável independente e Y é uma função de x (E= f (x)). Portanto, usando regressão linear podemos formar a seguinte equação (equação para a linha mais adequada):

Y = mx + c

Esta é uma equação de uma linha reta onde m é a inclinação da linha e c é a intersecção.

Paso 2

Agora, para derivar a linha mais adequada, primeiro atribuímos valores aleatórios à minha senhora, calculamos o valor correspondente de Y para um dado x. este valor y é o valor de saída.

Paso 3

Como a regressão logística é um algoritmo supervisionado de aprendizagem de máquina, já sabemos o valor de Y real (variável dependente). Agora, como temos nosso valor de saída calculado (vamos representá-lo como ŷ), podemos verificar se nossa previsão é precisa ou não.

No caso da regressão linear, calculamos esse erro (residual) usando o método MSE (erro quadrático médio) e chamamos de função de perda:

A função de perda pode ser escrita como:

L = 1 / n ∑ ((e – ŷ)2)

Onde n é o número de observações.

Paso 4

Para alcançar a melhor linha ajustada, temos que minimizar o valor da função de perda.

Para minimizar a função de perda, usamos uma técnica chamada descida gradiente.

Vamos analisar como funciona a descida gradiente (embora eu não vou mergulhar nos detalhes, como este não é o tema central deste artigo).

Gradiente descendente

Se olharmos para a fórmula da função de perda, o 'erro quadrado médio'’ significa que o erro é representado em termos de segunda ordem.

Se fizermos um gráfico da função de perda para o peso (em nossa equação os pesos são myc), será uma curva parabólica. Agora que nossa moto é para minimizar a função de perda, temos que chegar ao fim da curva.

58912gradiente20decent-9487817
FIG 1: Gradiente descendente

Para alcançar isto, devemos tomar a derivada de primeira ordem da função de perda para pesos (Myc). Então vamos subtrair o resultado da derivada do peso inicial multiplicando-se por uma taxa de aprendizagem (uma). Continuaremos repetindo esta etapa até chegarmos ao valor mínimo (chamamos de mínimos globais). Nós estabelecemos um limiar de um valor muito pequeno (exemplo: 0.0001) como mínimos globais. Se não definirmos o valor limite, pode levar uma eternidade para alcançar o valor zero exato.

Paso 5

Uma vez que a função de perda é minimizada, temos a equação final para a linha mais adequada e podemos prever o valor de Y para qualquer X dado.

É aí que termina a regressão linear e estamos a um passo de alcançar a regressão logística..

Regressão logística

Como eu disse antes, fundamentalmente, regressão logística é usado para classificar elementos de um conjunto em dois grupos (classificação binária) calculando a probabilidade de cada elemento do conjunto.

Etapas de regressão logística

Na regressão logística, decidimos sobre um limiar de probabilidade. Se a probabilidade de um determinado elemento for maior do que o limiar de probabilidade, classificamos esse elemento em um grupo ou vice-versa.

Paso 1

Para calcular a separação binária, primeiro, determinamos a melhor linha ajustada seguindo os passos da Regressão Linear.

Paso 2

A linha de regressão que oremos da regressão linear é muito suscetível a outliers.. Portanto, não vai fazer um bom trabalho de classificar duas classes.

Portanto, o valor previsto é convertido em probabilidade, alimentando-o para a função sigmoid.

A equação sigmoide:

32975sigmoid20equatu-6788604

Como podemos ver no Fig. 3, podemos alimentar qualquer número real para a função sigmoid e ele vai retornar um valor entre 0 e 1.

26949sigm-8368658

FIG 2: Curva sigmoide (imagem tirada da Wikipédia)

Portanto, se alimentarmos a saída ŷ valor para função sigmoid retunes um valor de probabilidade entre 0 e 1.

Paso 3

Finalmente, o valor de saída da função sigmoid torna-se 0 o 1 (valores discretos) de acordo com o valor limiar. Em geral, definimos o valor limiar para 0,5. Desta forma, temos a classificação binária.

Agora que temos a ideia básica de como a regressão linear e a regressão logística estão relacionadas., vamos rever o processo com um exemplo.

Exemplo

Considere um problema onde somos fornecidos com um conjunto de dados que contém a altura e o peso de um grupo de pessoas.. Nossa tarefa é prever o Peso para novas entradas na coluna Altura.

Então podemos descobrir que este é um problema de regressão no qual construiremos um modelo de regressão linear.. Vamos treinar o modelo com os valores de altura e peso fornecidos. Uma vez que o modelo é treinado, podemos prever o peso para um dado valor de altura desconhecido.

34043base-2327322

FIG 3: Regressão linear

Agora suponha que temos um campo adicional Obesidade e temos que classificar se uma pessoa é obesa ou não com base em sua altura e peso proporcionais. Este é claramente um problema de classificação onde temos que segregar o conjunto de dados em duas classes. (obesos e não obesos).

Então, para o novo problema, podemos novamente seguir os passos da Regressão Linear e construir uma linha de regressão. Desta vez, a linha será baseada em dois parâmetros Altura e Peso e a linha de regressão caberá entre dois conjuntos de valores discretos. Como esta linha de regressão é muito suscetível a outliers, não servirá para classificar duas classes.

Para uma classificação melhor, vamos alimentar os valores de saída da linha de regressão para a função sigmoide. a função sigmoid retorna a probabilidade de cada valor de saída da linha de regressão. Agora, com base em um valor limiar predefinido, podemos facilmente classificar a saída em duas classes de obesos ou não-obesos.

71562linear_vs_logistic_regression_edxw03-6168401
FIG 4: Regressão linear versus regressão logística

Finalmente, podemos resumir as semelhanças e diferenças entre esses dois modelos.

As semelhanças entre regressão linear e regressão logística

  • Tanto a regressão linear quanto a regressão logística são algoritmos supervisionados de aprendizagem de máquina..
  • Regressão linear e regressão logística, ambos os modelos são regressão paramétrica, quer dizer, ambos os modelos usam equações lineares para previsões.

Essas são todas as semelhanças que temos entre esses dois modelos..

Porém, em termos de funcionalidade, esses dois são completamente diferentes. Abaixo estão as diferenças.

As diferenças entre regressão linear e regressão logística

  • Regressão linear é usada para lidar com problemas de regressão, enquanto a regressão logística é usada para lidar com problemas de classificação.
  • A regressão linear proporciona saída contínua, mas a regressão logística proporciona uma produção discreta.
  • O objetivo da regressão linear é encontrar a linha mais adequada., enquanto a regressão logística está um passo à frente e ajusta os valores da linha para a curva sigmoid.
  • O método para calcular a função de perda na regressão linear é o erro quadrado médio, enquanto para regressão logística é a estimativa de máxima probabilidade.

Observação: No momento da redação deste artigo, Presumi que o leitor já está familiarizado com o conceito básico de regressão linear e regressão logística. Espero que este artigo explique a relação entre esses dois conceitos.

Assine a nossa newsletter

Nós não enviaremos SPAM para você. Nós odiamos isso tanto quanto você.