¡Comprenda el peso de la evidencia y el valor de la información!

Contenuti

Questo articolo è stato pubblicato nell'ambito del Blogathon sulla scienza dei dati

Ordine del giorno

Todos hemos construido una regresión logística en algún momento de nuestras vidas. Incluso si nunca hemos construido un modelo, definitivamente hemos aprendido teóricamente esta técnica de modelo predictivo. Dos conceptos simples y infravalorados que se utilizan en el paso de preprocesamiento para construir un modelo de regresión logística son el peso de la evidencia y el valor de la información. Me gustaría traerlos de vuelta al centro de atención a través de este artículo.

Este artículo está estructurado de la siguiente manera:

  1. Introduzione alla regressione logistica
  2. Importancia de la selección de características
  3. Necesidad de un buen imputador para características categóricas
  4. AFLICCIÓN
  5. IV

Cominciamo!

1. Introduzione alla regressione logistica

Il primo è il primo, todos sabemos que la regresión logística es un problema de clasificación. In particolare, consideramos aquí los problemas de clasificación binaria.

Los modelos de regresión logística toman como entrada tanto datos categóricos como numéricos y dan salida a la probabilidad de ocurrencia del evento.

Ejemplos de enunciados de problemas que se pueden resolver con este método son:

  1. Dados los datos del cliente, ¿cuál es la probabilidad de que el cliente compre un nuevo producto presentado por una empresa?
  2. Dados los datos requeridos, ¿cuál es la probabilidad de que un cliente bancario no pague un préstamo?
  3. Dados los datos meteorológicos del último mes, ¿cuál es la probabilidad de que llueva mañana?

Todas las declaraciones anteriores tuvieron dos resultados. (comprar y no comprar, predeterminado y no predeterminado, lluvia y no lluvia). Perciò, se puede construir un modelo de regresión logística binaria. La regresión logística es un método paramétrico. ¿Qué significa esto? Un método paramétrico tiene dos pasos.

1. Primo, asumimos una forma o forma funcional. En el caso de la regresión logística, asumimos que

81259log_reg-2061036

2. Necesitamos predecir los pesos / coeficientes bi de manera que, la probabilidad de un evento para una observación x sea cercana a 1 si el valor real del objetivo es 1 y la probabilidad es cercana a 0 si el valor real del objetivo es 0.

Con esta comprensión básica, comprendamos por qué necesitamos la selección de funciones.

2. Importancia de la selección de características

En esta era digital, estamos equipados con una enorme cantidad de datos. tuttavia, no todas las funciones disponibles para nosotros son útiles en todas las predicciones del modelo. Todos hemos escuchado el dicho “¡Entra basura, sale basura!". Perciò, elegir las características adecuadas para nuestro modelo es de suma importancia. Las funciones se seleccionan en función de la fuerza predictiva de la función.

Ad esempio, digamos que queremos predecir la probabilidad de que una persona compre una nueva receta de pollo en nuestro restaurante. Si tenemos una función: “Preferencia de comida” con valori {Vegetariano, No vegetariano, Eggetariano}, estamos casi seguros de que esta función separará claramente a las personas que tienen una mayor probabilidad de comprar este nuevo plato de las que nunca lo comprarán. . Perciò, esta característica tiene un alto poder predictivo.

Podemos cuantificar el poder predictivo de una característica utilizando el concepto de valor de la información que se describirá aquí.

3. Necesidad de un buen imputador para funciones categóricas

La regresión logística es un método paramétrico que requiere que calculemos una ecuación lineal. Esto requiere que todas las características sean numéricas. tuttavia, es posible que tengamos características categóricas en nuestros conjuntos de datos que sean nominales u ordinales. Hay muchos métodos de imputación como la codificación one-hot o simplemente asignar un número a cada clase de características categóricas. cada uno de estos métodos tiene sus propios méritos y deméritos. tuttavia, no discutiré lo mismo aquí.

En el caso de la regresión logística, podemos utilizar el concepto WoE (Weight of Evidence) para imputar las características categóricas.

4. Peso de las pruebas

Después de todos los antecedentes proporcionados, ¡finalmente hemos llegado al tema del día!

La fórmula para calcular el peso de la evidencia para cualquier característica viene dada por

30208woe-9077258

Antes de continuar explicando la intuición detrás de esta fórmula, tomemos un ejemplo ficticio:

63360woecalculate-5988682

El peso de la evidencia indica el poder predictivo de una sola característica con respecto a su característica independiente. Si alguna de las categorías / bins de una característica tiene una gran proporción de eventos en comparación con la proporción de no eventos, obtendremos un valor alto de WoE que a su vez dice que esa clase de característica separa los eventos de los no eventos. .

Ad esempio, considere la categoría C de la característica X en el ejemplo anterior, la proporción de eventos (0,16) es muy pequeña en comparación con la proporción de no eventos (0,37). Esto implica que si el valor de la característica X es C, es más probable que el valor objetivo sea 0 (sin evento). El valor WoE solo nos dice qué tan seguros estamos de que la función nos ayudará a predecir correctamente la probabilidad de un evento.

Ahora que sabemos que WoE mide el poder predictivo de cada bin / categoría de una característica, ¿cuáles son los otros beneficios de WoE?

1. Los valores de WoE para las diversas categorías de una variable categórica se pueden utilizar para imputar una característica categórica y convertirla en una característica numérica, ya que un modelo de regresión logística requiere que todas sus características sean numéricas.

Al examinar cuidadosamente la fórmula de WoE y la ecuación de regresión logística a resolver, vemos que WoE de una característica tiene una relación lineal con las probabilidades logarítmicas. Esto asegura que se satisfaga el requisito de que las características tengan una relación lineal con las probabilidades logarítmicas.

2. Por la misma razón que la anterior, si una característica continua no tiene una relación lineal con las probabilidades de registro, la característica se puede agrupar en grupos y se puede usar una nueva característica creada reemplazando cada contenedor con su valor WoE en lugar de la característica original. Perciò, WoE es un buen método de transformación de variables para la regresión logística.

3. Al organizar una característica numérica en orden ascendente, si los valores de WoE son todos lineales, sabemos que la característica tiene la relación lineal correcta con el objetivo. tuttavia, si la WoE de la característica no es lineal, debemos descartarla o considere alguna otra transformación de variable para asegurar la linealidad. Perciò, WoE nos brinda una herramienta para verificar la relación lineal con la característica dependiente.

4. WoE es mejor que la codificación one-hot ya que la codificación one-hot necesitará que cree nuevas características h-1 para acomodar una característica categórica con categorías h. Esto implica que el modelo no tendrá que predecir coeficientes h-1 (con un) invece di 1. tuttavia, en la transformación de la variable WoE, necesitaremos calcular un coeficiente único para la característica en consideración.

5. Valore delle informazioni

Habiendo discutido el valor WoE, el valor WoE nos dice el poder predictivo de cada bin de una característica. tuttavia, un solo valor que represente el poder predictivo de toda la característica será útil en la selección de características.

La ecuación para IV es

66585iv-6537586

Tenga en cuenta que el término (porcentaje de eventosel porcentaje de no eventos) sigue el mismo signo que WoE, così, se asegura de que el IV sea siempre un número positivo.

¿Cómo interpretamos el valor de IV?

La siguiente tabla le brinda una regla fija para ayudarlo a seleccionar las mejores características para su modelo

Valore delle informazioni Poder de predicción
<0.02 Inutile
0,02 fino a 0,1 Predictores débiles
0,1 fino a 0,3 Predictores medios
0,3 fino a 0,5 Fuertes predictores
> 0,5 Suspicaz

Como se ve en el ejemplo anterior, la característica X tiene un valor de información de 0.399, lo que la convierte en un predictor sólido y, così, se utilizará en el modelo.

6. conclusione

Como se ve en el ejemplo anterior, el cálculo del WoE y el IV son beneficiosos y nos ayudan a analizar múltiples puntos como se enumeran a continuación.

1. WoE ayuda a verificar la relación lineal de una característica con su característica dependiente que se utilizará en el modelo.

2. WoE es un buen método de transformación de variables para características continuas y categóricas.

3. WoE es mejor que la codificación en caliente, ya que este método de transformación de variables no aumenta la complejidad del modelo.

4. IV es una buena medida del poder predictivo de una característica y también ayuda a señalar la característica sospechosa.

Aunque WoE y IV son muy útiles, asegúrese siempre de que solo se utilice con regresión logística. A diferencia de otros métodos de selección de características disponibles, las características seleccionadas mediante IV pueden no ser el mejor conjunto de características para una construcción de modelos no lineales.

Espero que este artículo te haya ayudado a intuir el funcionamiento de WoE y IV.

Il supporto mostrato in questo articolo non è di proprietà di DataPeaker e viene utilizzato a discrezione dell'autore.

Iscriviti alla nostra Newsletter

Non ti invieremo posta SPAM. Lo odiamo quanto te.