Modélisation prédictive dans Excel | Comment créer un modèle de régression linéaire

Contenu

Vue d'ensemble

  • Vous pouvez effectuer une modélisation prédictive dans Excel en quelques étapes seulement
  • Voici un tutoriel étape par étape sur la façon de créer un modèle de régression linéaire dans Excel et comment interpréter les résultats.

introduction

Excel pour la modélisation prédictive? Sérieusement?

Comme d'habitude, c'est la première réaction que j'obtiens quand j'aborde le sujet. Ceci est suivi d'un regard d'incrédulité alors que je montre comment nous pouvons tirer parti de la nature flexible d'Excel pour créer des modèles prédictifs pour nos projets de science des données et d'analyse..

Laisse moi te poser une question: si les magasins autour de vous ont commencé à collecter des données clients, Pourriez-vous adopter une stratégie data-driven pour vendre vos produits ?? Pouvez-vous prévoir vos ventes ou estimer le nombre de produits qui pourraient être vendus?

régression-linéaire-dans-excel-4513817

Maintenant, vous devez vous demander comment diable ils vont construire un modèle statistique complexe qui peut prédire ces choses. Et l'apprentissage de l'analytique ou l'embauche d'un analyste peut être hors de votre portée.. Ce sont les bonnes nouvelles: ce n'est pas nécessaire. Microsoft Excel nous offre la possibilité de créer des modèles prédictifs sans avoir à écrire un code complexe qui survole la tête de la plupart des gens.

Nous pouvons facilement créer un modèle simple comme la régression linéaire dans MS Excel qui peut nous aider à effectuer une analyse en quelques étapes simples. Et nul besoin de maîtriser Excel ou les statistiques pour faire de la modélisation prédictive !!

Dans cet article, je vais expliquer comment construire un modèle de régression linéaire dans Excel et comment analyser le résultat afin que vous puissiez devenir un analyste superstar.

Ceci est le septième article de ma série Excel pour les analystes. Je recommande fortement de lire les articles précédents pour devenir un analyste plus efficace.:

Je vous encourage à consulter les ressources ci-dessous si vous êtes débutant en Excel et Business Analytics:

Table des matières

  1. Qu'est-ce que la régression linéaire?
  2. Obtenez le très important Add Analytics ToolPak dans Excel
  3. Implémentation de la régression linéaire dans Excel
  4. Interprétation des résultats de notre modèle prédictif
  5. Comment pouvons-nous améliorer le modèle?
  6. Faire des prédictions dans Excel!

Qu'est-ce que la régression linéaire?

La régression linéaire est la première technique d'apprentissage automatique que la plupart d'entre nous apprenons. C'est aussi la technique d'apprentissage supervisé la plus utilisée dans l'industrie..

Mais, Qu'est-ce que la régression linéaire?

C'est une approche linéaire pour modéliser statistiquement la relation entre la variable dépendante (la variable que vous voulez prédire) et les variables indépendantes (les facteurs utilisés pour prédire). La régression linéaire nous donne une équation comme celle-ci:

équation-2599410

Ici, nous avons Y comme variable dépendante, les X sont les variables indépendantes et tous les C sont les coefficients. Les coefficients sont essentiellement les poids attribués aux caractéristiques, selon son importance.

La méthode la plus courante pour effectuer une régression est l'OLS (moindres carrés ordinaires). Votre objectif est de réduire la somme des carrés pour produire la ligne la mieux ajustée comme celle-ci:

linear_regression_chart-4453416

Pour plus d'informations sur la régression linéaire, voici quelques ressources:

Obtenez le complément Excel pour le pack d'outils d'analyse All-Important

Pour effectuer une analyse de régression dans Excel, nous devons d'abord activer Excel Plugin d'outils d'analyse. Analysis ToolPak dans Excel est un programme compagnon qui fournit des outils d'analyse de données pour l'analyse statistique et technique.

Pour l'ajouter à votre classeur, Suivez ces étapes.

Paso 1 – Options Excel

Aller à Enregistrements -> Les choix:

0-8892476

Paso 2: ubicar Analytics ToolPak

Aller à Accessoires dans le panneau de gauche -> Gérer les compléments Excel -> Je:

1-4-2928792

Paso 3: agregue Analytics ToolPak

Sélectionnez le “Boîte à outils d'analyse“Et appuyez sur d'accord:

1-2-1-1940311

Vous avez ajouté avec succès la boîte à outils d'analyse dans Excel !! Vous pouvez le vérifier en allant sur Données barre sur bande.

Commençons à construire notre modèle prédictif dans Excel !!

Implémentation de la régression linéaire dans Excel

Beaucoup de choses étaient théoriques jusqu'à présent. Maintenant, plongeons dans Excel et exécutons une analyse de régression linéaire!

Voici l'énoncé du problème avec lequel nous allons travailler:

Il y a une entreprise de vente de chaussures dans la ville de Winden. L'entreprise souhaite prédire les ventes de chaque client en tenant compte des facteurs suivants: chiffre d'affaires client, distance de la maison au magasin, fréquence d'exploitation des clients par semaine.

données-3-2255320

Paso 1: sélectionnez Régression

Aller à Données -> L'analyse des données:

2-4-9123585

Accédez à l'analyse des données dans la boîte à outils de données, sélectionnez Régression et appuyez sur d'accord:

3-2-1136773

Paso 2: Sélectionnez les options

Dans cette étape, nous sélectionnerons certaines des options nécessaires à notre analyse, comme:

  • Plage d'entrée et: la plage du facteur indépendant
  • Plage d'entrée x: l'éventail des facteurs dépendants
  • Plage de sortie: la plage de cellules où vous souhaitez afficher les résultats.

4-3-2739531

Les autres options sont discrétionnaires et vous pouvez les sélectionner pour votre objectif spécifique.

presse d'accord Et enfin, nous avons effectué une analyse de régression dans Excel en seulement deux étapes !! N'était-ce pas si facile? Nous allons maintenant voir le résultat de l'analyse de régression dans Excel.

Analyser les résultats de notre modèle prédictif dans Excel

La mise en œuvre du modèle de régression linéaire était la partie facile. Vient maintenant l'aspect compliqué de notre analyse: interpréter les résultats du modèle prédictif dans Excel.

En résumé, avoir 3 types de sortie et nous les couvrirons un par un:

  • Tableau des statistiques de régression
  • Tableau ANOVA
  • Tableau des coefficients de régression
  • Tableau des résidus

Tableau des statistiques de régression

Le tableau des statistiques de régression nous indique dans quelle mesure la ligne de meilleur ajustement définit la relation linéaire entre les variables indépendantes et dépendantes.. Deux des mesures les plus importantes sont les valeurs R au carré et R au carré ajusté..

Les R Carré les statistiques sont l'indicateur de qualité de l'ajustement qui nous dit combien de variance est expliquée par la ligne de meilleur ajustement. La valeur de R au carré varie de 0 une 1. Dans notre cas, on a la valeur de R au carré de 0,953, ce qui signifie que notre ligne est capable d'expliquer la 95% de l'écart, un bon signe.

régression_stats-9605928

Mais il y a un problème: comme nous continuons à ajouter plus de variables, notre valeur R au carré continuera d'augmenter même si la variable n'a aucun effet. R carré ajusté résout ce problème et est une métrique beaucoup plus fiable.

Tableau ANOVA

ANOVA signifie Analyse de la variance. Ce tableau décompose la somme des carrés en ses composantes pour donner des détails sur la variabilité au sein du modèle..

Inclure une métrique très importante, Signification F (ouais valeur p), qui nous dit si votre modèle est statistiquement significatif ou non. En peu de mots, signifie que nos résultats ne sont probablement pas dus au hasard, mais à une cause sous-jacente. Le seuil le plus couramment utilisé pour la valeur p est 0,05. Si nous obtenons une valeur inférieure à celle-ci, nous sommes prêts à commencer. Au contraire, nous aurions besoin de choisir un autre ensemble de variables indépendantes.

anova-5582018

Dans notre cas, nous avons une valeur bien inférieure au seuil de 0,05. Genial, nous pouvons continuer maintenant!

Tableau des coefficients de régression

Le tableau des coefficients décompose les composantes de la droite de régression sous forme de coefficients. Nous pouvons comprendre beaucoup de ces.

Pour l'entreprise de chaussures Winden, Il semble que pour chaque unité d'augmentation de entrée, la vente augmente de 0.08 unités, et une augmentation d'une unité de distance du magasin augmente dans 508 unités!

coefficients-2982651

Il semble qu'une augmentation de fréquence de fonctionnement diminue les ventes en 24 unités, mais peut-on vraiment croire en cette fonctionnalité? Si vous regardez l'image ci-dessus, vous remarquerez que sa valeur p est supérieure à 0.5, ce qui signifie qu'il n'est pas statistiquement significatif. Nous verrons comment nous pouvons gérer cette situation dans la section suivante..

Tableau des résidus

Le tableau des résidus reflète à quel point la valeur prédite varie de la valeur réelle. Il se compose des valeurs prédites par notre modèle:

résidus-8832221

Comment pouvons-nous améliorer notre modèle?

Comme nous l'avons vu précédemment, la valeur p de la variable fréquence de fonctionnement est plus que 0,05, vérifions donc nos résultats en supprimant cette variable de notre analyse.

Nous suivrons toutes les étapes mentionnées ci-dessus mais n'inclurons pas la colonne fréquence d'exécution:

amélioration-5456165

Nous voyons que la valeur ajustée R-carré s'est légèrement améliorée ici par rapport à 0,920 une 0,929!

Faire des prédictions dans Excel!

Nous avons l'analyse de régression prête, ensuite, Que pouvons-nous faire maintenant? Nous allons voir.

Un ancien client à vous nommé Aleksander entre et nous voulons prédire ses ventes. Nous pouvons simplement entrer le nombre de données dans le modèle de régression linéaire et le tour est joué !!

Aleksander a un revenu de 40k et vit à 2 km du magasin. Quelles sont les ventes estimées?

L'équation devient:

final_equation-1853377

Ici, notre modèle a estimé que M.. Alexandre paierait 4218 unités pour acheter votre nouvelle paire de chaussures. C'est la puissance de la régression linéaire simplement réalisée dans Microsoft Excel.

Remarques finales

Dans cet article, nous avons appris à créer un modèle de régression linéaire dans Excel et à interpréter les résultats. J'espère que ce guide vous aidera à vous améliorer en tant qu'analyste de données ou scientifique.

Analytics ToolPak comprend de nombreuses autres options d'analyse dans Excel. Vous pouvez essayer de nombreuses autres analyses statistiques dans votre vie quotidienne !!

Abonnez-vous à notre newsletter

Nous ne vous enverrons pas de courrier SPAM. Nous le détestons autant que vous.