Este artigo foi publicado como parte do Data Science Blogathon
Agenda
Todos nós construímos uma regressão logística em algum momento de nossas vidas.. Mesmo que nunca tenhamos construído um modelo, nós definitivamente aprendemos essa técnica de modelo preditivo teoricamente. Dois conceitos simples e pouco valorizados usados na etapa de pré-processamento para construir um modelo de regressão logística são o peso da evidência e o valor da informação.. Eu gostaria de trazê-lo de volta aos holofotes através deste artigo..
Este artigo está estruturado da seguinte forma:
- Introdução à regressão logística
- Importância da seleção de recursos
- Necessidade de um bom imputador para características categóricas
- AFLIÇÃO
- 4
Comecemos!
1. Introdução à regressão logística
Primeiras coisas primeiro, todos sabemos que a regressão logística é um problema de classificação. Em particular, consideramos aqui problemas de classificação binária.
Os modelos de regressão logística tomam dados categóricos e numéricos como entrada e saída da probabilidade de ocorrência do evento..
Exemplos de declarações de problemas que podem ser resolvidos com este método são:
- Dados do cliente fornecidos, Qual é a probabilidade de o cliente comprar um novo produto apresentado por uma empresa?
- Dados os dados necessários, Qual é a probabilidade de um cliente do banco deixar de pagar um empréstimo??
- Dados os dados meteorológicos do último mês, qual é a probabilidade de chover amanhã?
Todas as afirmações acima tiveram dois resultados. (compre e não compre, padrão e não padrão, chuva e não chuva). Por tanto, um modelo de regressão logística binária pode ser construído. A regressão logística é um método paramétrico. O que significa isto? Um método paramétrico tem duas etapas.
1. Primeiro, assumimos uma forma ou forma funcional. No caso de regressão logística, nós assumimos que
2. Precisamos prever os pesos / coeficientes bi para que, a probabilidade de um evento para uma observação x é próxima de 1 se o valor real da meta for 1 e a probabilidade é próxima de 0 se o valor real da meta for 0.
Com esse entendimento básico, vamos entender por que precisamos de seleção de recursos.
2. Importância da seleção de recursos
criado em um clique, estamos equipados com uma enorme quantidade de dados. Porém, nem todas as funções disponíveis para nós são úteis em todas as previsões do modelo. Todos nós já ouvimos o ditado: "Entre lixo!, sai lixo!”. Portanto, Escolher os recursos certos para o nosso modelo é de suma importância.. Os recursos são selecionados com base na força preditiva do recurso.
Por exemplo, Digamos que queremos prever a probabilidade de uma pessoa comprar uma nova receita de frango em nosso restaurante.. Se tivermos uma função: “Preferência alimentar” com valores {Vegetariano, Não vegetariano, Eggetarian}, temos quase certeza de que esse recurso separará claramente as pessoas com maior probabilidade de comprar este novo prato daquelas que nunca o comprarão. . Portanto, este recurso tem alto poder preditivo.
Podemos quantificar o poder preditivo de um recurso usando o conceito de valor da informação que será descrito aqui..
3. Necessidade de um bom imputador para funções categóricas
A regressão logística é um método paramétrico que exige que calculemos uma equação linear. Isso requer que todos os recursos sejam numéricos. Porém, podemos ter características categóricas em nossos conjuntos de dados que são nominais ou ordinais. Existem muitos métodos de imputação, como codificação one-hot ou simplesmente atribuir um número a cada classe de recursos categóricos. cada um desses métodos tem seus próprios méritos e deméritos. Porém, Eu não vou discutir o mesmo aqui.
No caso de regressão logística, podemos usar o conceito WoE (Peso da Evidência) imputar características categóricas.
4. peso da evidência
Depois de todo o fundo fornecido, Finalmente chegamos ao assunto do dia!!
A fórmula para calcular o peso da evidência para qualquer característica é dada por
Antes de continuar a explicar a intuição por trás desta fórmula, vamos a um exemplo fictício:
O peso da evidência indica o poder preditivo de uma única característica em relação à sua característica independente.. Se alguma das categorias / bins de um recurso têm uma grande proporção de eventos em comparação com a proporção de não eventos, obteremos um alto valor de WoE que, por sua vez, diz que essa classe de recurso separa eventos de não eventos. .
Por exemplo, considere a categoria C da característica X no exemplo acima, a proporção de eventos (0,16) é muito pequena em comparação com a proporção de não-eventos (0,37). Isso implica que se o valor da característica X é C, é mais provável que o valor alvo seja 0 (Nenhum evento). O valor WoE apenas nos diz o quão confiantes estamos de que a função nos ajudará a prever corretamente a probabilidade de um evento..
Agora que sabemos que o WoE mede o poder preditivo de cada caixa / categoria de um recurso, quais são os outros benefícios do WoE?
1. Los valores de WoE para las diversas categorías de una variávelEm estatística e matemática, uma "variável" é um símbolo que representa um valor que pode mudar ou variar. Existem diferentes tipos de variáveis, e qualitativo, que descrevem características não numéricas, e quantitativo, representando quantidades numéricas. Variáveis são fundamentais em experimentos e estudos, uma vez que permitem a análise de relações e padrões entre diferentes elementos, facilitando a compreensão de fenômenos complexos.... categórica se pueden utilizar para imputar una característica categórica y convertirla en una característica numérica, uma vez que um modelo de regressão logística requer que todos os seus recursos sejam numéricos.
Examinando cuidadosamente a fórmula WoE e a equação de regressão logística a ser resolvida, vemos que WoE de um recurso tem uma relação linear com as probabilidades logarítmicas. Isso garante que o requisito de que os recursos tenham uma relação linear com as probabilidades logarítmicas seja atendido..
2. Pelo mesmo motivo acima, se um recurso contínuo não tiver uma relação linear com as probabilidades de log, o recurso pode ser agrupado em grupos e um novo recurso criado substituindo cada contêiner pelo seu valor WoE pode ser usado em vez do recurso original. Por tanto, WoE é um bom método de transformação de variáveis para regressão logística.
3. Ao organizar um recurso numérico em ordem crescente, se os valores de WoE são todos lineares, sabemos que o recurso tem a relação linear correta com o destino. Porém, se o WoE da característica não for linear, devemos descartá-lo ou considerar alguma outra transformação de variável para garantir a linearidade. Portanto, WoE nos dá uma ferramenta para verificar a relação linear com o recurso dependente.
4. O WoE é melhor do que a codificação one-hot, pois a codificação one-hot precisará que você crie novos recursos h-1 para acomodar um recurso categórico com categorias h. Isso implica que o modelo não terá que prever os coeficientes h-1 (com um) ao invés de 1. Porém, na transformação da variável WoE, precisaremos calcular um coeficiente único para o recurso em consideração.
5. Valor da informação
Tendo discutido o valor WoE, o valor WoE nos diz o poder preditivo de cada bin de um recurso. Porém, um único valor representando o poder preditivo de todo o recurso será útil na seleção de recursos.
A equação para IV é
Observe que o termo (porcentagem de eventos – a porcentagem de não eventos) segue o mesmo sinal que WoE, portanto, garante que o IV seja sempre um número positivo.
Como interpretamos o valor de IV?
A tabela abaixo fornece uma regra definida para ajudá-lo a selecionar os melhores recursos para seu modelo.
Valor da informação | poder de previsão |
<0.02 | Inútil |
0,02 até 0,1 | preditores fracos |
0,1 até 0,3 | preditores médios |
0,3 até 0,5 | Preditores fortes |
> 0,5 | Suspeito |
Como visto no exemplo acima, característica X tem um valor de informação de 0.399, o que o torna um forte preditor e, portanto, será usado no modelo.
6. conclusão
Como visto no exemplo acima, O cálculo de WoE e IV é benéfico e nos ajuda a analisar vários pontos, conforme listado abaixo.
1. WoE ajuda a verificar a relação linear de um recurso com seu recurso dependente a ser usado no modelo.
2. WoE é um bom método de transformação variável para características contínuas e categóricas.
3. WoE é melhor que codificação a quente, uma vez que este método de transformação de variáveis não aumenta a complexidade do modelo.
4. IV es una buena mediro "medir" É um conceito fundamental em várias disciplinas, que se refere ao processo de quantificação de características ou magnitudes de objetos, Fenômenos ou situações. Na matemática, Usado para determinar comprimentos, Áreas e volumes, enquanto nas ciências sociais pode se referir à avaliação de variáveis qualitativas e quantitativas. A precisão da medição é crucial para obter resultados confiáveis e válidos em qualquer pesquisa ou aplicação prática.... del poder predictivo de una característica y también ayuda a señalar la característica sospechosa.
Embora WoE e IV sejam muito úteis, certifique-se sempre de que é usado apenas com regressão logística. Ao contrário de outros métodos de seleção de recursos disponíveis, recursos selecionados por IV podem não ser o melhor conjunto de recursos para construção de modelos não lineares.
Espero que este artigo tenha ajudado você a entender como o WoE e o IV funcionam..
A mídia mostrada neste artigo não é propriedade da DataPeaker e é usada a critério do autor.