Modelado predictivo en Excel | Cómo crear un modelo de regresión lineal

Contenidos

Visión general

  • Puede realizar modelos predictivos en Excel en solo unos pocos pasos
  • Aquí hay un tutorial paso a paso sobre cómo construir un modelo de regresión lineal en Excel y cómo interpretar los resultados.

Introducción

¿Excel para modelado predictivo? ¿En serio?

Por lo general, esa es la primera reacción que obtengo cuando menciono el tema. A esto le sigue una mirada de incredulidad cuando demuestro cómo podemos aprovechar la naturaleza flexible de Excel para construir modelos predictivos para nuestros proyectos de análisis y ciencia de datos.

Déjame hacerte una pregunta: si las tiendas que te rodean comenzaran a recopilar datos de clientes, ¿podrían adoptar una estrategia basada en datos para vender sus productos? ¿Pueden pronosticar sus ventas o estimar la cantidad de productos que podrían venderse?

linear-regression-in-excel-4513817

Ahora debe preguntarse cómo diablos construirán un modelo estadístico complejo que pueda predecir estas cosas. Y aprender análisis o contratar a un analista podría estar más allá de su alcance. Estas son las buenas noticias: no es necesario. Microsoft Excel nos ofrece la capacidad de crear modelos predictivos sin tener que escribir un código complejo que vuela sobre la cabeza de la mayoría de las personas.

Podemos construir fácilmente un modelo simple como la regresión lineal en MS Excel que puede ayudarnos a realizar análisis en unos pocos pasos simples. ¡Y no necesitamos ser un maestro en Excel o Estadística para realizar modelos predictivos!

En este artículo, voy a explicar cómo construir un modelo de regresión lineal en Excel y cómo analizar el resultado para que pueda convertirse en un analista superestrella.

Este es el séptimo artículo de mi serie Excel para analistas. Recomiendo encarecidamente leer los artículos anteriores para convertirse en un analista más eficiente:

Le animo a que consulte los recursos a continuación si es un principiante en Excel y Business Analytics:

Tabla de contenido

  1. ¿Qué es la regresión lineal?
  2. Obtener el importantísimo Add Analytics ToolPak en Excel
  3. Implementación de regresión lineal en Excel
  4. Interpretación de los resultados de nuestro modelo predictivo
  5. ¿Cómo podemos mejorar el modelo?
  6. ¡Haciendo predicciones en Excel!

¿Qué es la regresión lineal?

La regresión lineal es la primera técnica de aprendizaje automático que la mayoría de nosotros aprendemos. También es la técnica de aprendizaje supervisado más utilizada en la industria.

Pero, ¿qué es la regresión lineal?

Es un enfoque lineal para modelar estadísticamente la relación entre la variable dependiente (la variable que desea predecir) y las variables independientes (los factores utilizados para predecir). La regresión lineal nos da una ecuación como esta:

equation-2599410

Aquí, tenemos Y como nuestra variable dependiente, las X son las variables independientes y todas las C son los coeficientes. Los coeficientes son básicamente los pesos asignados a las características, en función de su importancia.

El método más común para realizar la regresión es el OLS (mínimos cuadrados ordinarios). Su objetivo es reducir la suma de cuadrados para producir la línea de mejor ajuste como esta:

linear_regression_chart-4453416

Si desea obtener más información sobre la regresión lineal, aquí tiene algunos recursos:

Obtener el Complemento de Excel del All-Important Analysis ToolPack

Para realizar un análisis de regresión en Excel, primero necesitamos habilitar Excel Complemento de herramientas de análisis. Analysis ToolPak en Excel es un programa complementario que proporciona herramientas de análisis de datos para análisis estadístico y de ingeniería.

Para agregarlo en su libro de trabajo, siga estos pasos.

Paso 1 – Opciones de Excel

Ir a Archivos -> Opciones:

0-8892476

Paso 2: ubicar Analytics ToolPak

Ir a Complementos en el panel izquierdo -> Administrar complementos de Excel -> Ir:

1-4-2928792

Paso 3: agregue Analytics ToolPak

Selecciona el «Paquete de herramientas de análisis«Y presione OK:

1-2-1-1940311

¡Ha agregado con éxito el paquete de herramientas de análisis en Excel! Puedes comprobarlo yendo a la Datos barra en la cinta.

¡Comencemos a construir nuestro modelo predictivo en Excel!

Implementación de regresión lineal en Excel

Muchas cosas eran teóricas hasta ahora. ¡Ahora, profundicemos en Excel y realicemos análisis de regresión lineal!

Aquí está la declaración del problema con la que trabajaremos:

Hay una empresa de venta de zapatos en la ciudad de Winden. La empresa quiere predecir las ventas a través de cada cliente considerando los siguientes factores: ingresos del cliente, distancia de la casa a la tienda, frecuencia de funcionamiento del cliente por semana.

data-3-2255320

Paso 1: seleccione Regresión

Ir a Datos -> Análisis de los datos:

2-4-9123585

Vaya a Análisis de datos en el Paquete de herramientas de datos, seleccione Regresión y presione OK:

3-2-1136773

Paso 2: seleccione Opciones

En este paso, seleccionaremos algunas de las opciones necesarias para nuestro análisis, tales como:

  • Rango de entrada y: el rango del factor independiente
  • Rango de entrada x: el rango de factores dependientes
  • Rango de salida: el rango de celdas donde desea mostrar los resultados.

4-3-2739531

Las otras opciones son discrecionales y puede seleccionarlas para su propósito específico.

prensa OK ¡y finalmente hemos realizado un análisis de regresión en Excel en solo dos pasos! ¿No fue tan fácil? Ahora veremos el resultado del análisis de regresión en Excel.

Analizando los resultados de nuestro modelo predictivo en Excel

Implementar el modelo de regresión lineal fue la parte fácil. Ahora viene el aspecto complicado de nuestro análisis: interpretar los resultados del modelo predictivo en Excel.

En resumen, tenemos 3 tipos de salida y los cubriremos uno por uno:

  • Tabla de estadísticas de regresión
  • Tabla ANOVA
  • Tabla de coeficientes de regresión
  • Tabla residual

Tabla de estadísticas de regresión

La tabla de estadísticas de regresión nos dice qué tan bien la línea de mejor ajuste define la relación lineal entre las variables independientes y dependientes. Dos de las medidas más importantes son los valores R cuadrado y R cuadrado ajustado.

los R-cuadrado la estadística es el indicador de bondad de ajuste que nos dice cuánta varianza se explica por la línea de mejor ajuste. El valor de R cuadrado varía de 0 a 1. En nuestro caso, tenemos el valor de R cuadrado de 0,953, lo que significa que nuestra línea es capaz de explicar el 95% de la varianza, una buena señal.

regression_stats-9605928

Pero hay un problema: a medida que seguimos agregando más variables, nuestro valor de R cuadrado seguirá aumentando aunque la variable no tenga ningún efecto. R cuadrado ajustado resuelve este problema y es una métrica mucho más confiable.

Tabla ANOVA

ANOVA significa Análisis de varianza. Esta tabla desglosa la suma de cuadrados en sus componentes para dar detalles de la variabilidad dentro del modelo.

Incluye una métrica muy importante, Significado F (o la Valor p), que nos dice si su modelo es estadísticamente significativo o no. En pocas palabras, significa que nuestros resultados probablemente no se deban a la aleatoriedad, sino a una causa subyacente. El umbral más utilizado para el valor p es 0,05. Si obtenemos un valor menor que este, estamos listos para comenzar. De lo contrario, necesitaríamos elegir otro conjunto de variables independientes.

anova-5582018

En nuestro caso, tenemos un valor muy por debajo del umbral de 0,05. ¡Genial, podemos seguir adelante ahora!

Tabla de coeficientes de regresión

La tabla de coeficientes desglosa los componentes de la línea de regresión en forma de coeficientes. Podemos entender mucho de estos.

Para la empresa de calzado Winden, parece que por cada unidad de aumento en ingreso, la venta aumenta en 0.08 unidades, y un aumento en una unidad de distancia de la tienda aumenta en 508 unidades!

coefficients-2982651

Parece que un aumento en frecuencia de funcionamiento disminuye las ventas en 24 unidades, pero ¿podemos realmente creer en esta característica? Si miras en la imagen de arriba, notarás que su valor p es mayor que 0.5, lo que significa que no es estadísticamente significativo. Veremos cómo podemos manejar esta situación en la siguiente sección.

Tabla residual

La tabla residual refleja cuánto varía el valor predicho del valor real. Consiste en los valores predichos por nuestro modelo:

residuals-8832221

¿Cómo podemos mejorar nuestro modelo?

Como vimos anteriormente, el valor p de la variable frecuencia de funcionamiento es más de 0,05, así que comprobemos nuestros resultados eliminando esta variable de nuestro análisis.

Seguiremos todos los pasos mencionados anteriormente pero no incluiremos la columna de frecuencia de ejecución:

improvement-5456165

¡Observamos que el valor de R-cuadrado ajustado mejoró ligeramente aquí de 0,920 a 0,929!

¡Haciendo predicciones en Excel!

Tenemos el análisis de regresión listo, entonces, ¿qué podemos hacer ahora? Vamos a ver.

Un antiguo cliente suyo llamado Aleksander entra y deseamos predecir las ventas de él. Simplemente podemos ingresar el número de los datos en el modelo de regresión lineal y ¡estamos listos para comenzar!

Aleksander tiene un ingreso de 40k y vive a 2 km de la tienda. ¿Cuáles son las ventas estimadas?

La ecuación se convierte en:

final_equation-1853377

Aquí, nuestro modelo ha estimado que el Sr. Aleksander pagaría 4218 unidades para comprar su nuevo par de zapatos. Ese es el poder de la regresión lineal realizada simplemente en Microsoft Excel.

Notas finales

En este artículo, aprendimos cómo construir un modelo de regresión lineal en Excel y cómo interpretar los resultados. Espero que esta guía le ayude a mejorar como analista o científico de datos.

Analytics ToolPak consta de muchas otras opciones de análisis en Excel. ¡Puedes probar muchos otros análisis estadísticos en tu vida diaria!

Suscribite a nuestro Newsletter

No te enviaremos correo SPAM. Lo odiamos tanto como tú.