Prädiktive Modellierung in Excel | So erstellen Sie ein lineares Regressionsmodell

Teilen auf Facebook
Teilen auf twittern
Teilen auf verlinktin
Teilen auf Telegramm
Teilen auf WhatsApp

Inhalt

Überblick

  • Sie können in wenigen Schritten Vorhersagemodelle in Excel durchführen
  • Hier ist eine Schritt-für-Schritt-Anleitung zum Erstellen eines linearen Regressionsmodells in Excel und zur Interpretation der Ergebnisse.

Einführung

Excel für prädiktive Modellierung? Ernsthaft?

Wie gewöhnlich, Das ist die erste Reaktion, die ich bekomme, wenn ich das Thema anspreche. Darauf folgt ein ungläubiger Blick, während ich demonstriere, wie wir die Flexibilität von Excel nutzen können, um Vorhersagemodelle für unsere Data Science- und Analytics-Projekte zu erstellen..

Lass mich dir eine Frage stellen: wenn die Geschäfte um Sie herum anfangen, Kundendaten zu sammeln, Könnten Sie eine datengesteuerte Strategie zum Verkauf Ihrer Produkte anwenden?? Können Sie Ihre Verkäufe vorhersagen oder die Anzahl der Produkte schätzen, die verkauft werden könnten??

lineare-regression-in-excel-4513817

Jetzt müssen Sie sich fragen, wie sie ein komplexes statistisches Modell erstellen werden, das diese Dinge vorhersagen kann. Und das Erlernen von Analysen oder die Einstellung eines Analysten könnte für Sie unerreichbar sein.. Das ist die gute Nachricht: Es muss nicht sein. Microsoft Excel bietet uns die Möglichkeit, Vorhersagemodelle zu erstellen, ohne komplexen Code schreiben zu müssen, der über die Köpfe der meisten Leute hinweg fliegt.

Wir können leicht ein einfaches Modell wie die lineare Regression in MS Excel erstellen, das uns helfen kann, Analysen in wenigen einfachen Schritten durchzuführen. Und wir müssen kein Meister von Excel oder Statistik sein, um Vorhersagemodelle zu erstellen!!

In diesem Artikel, Ich werde erklären, wie man ein lineares Regressionsmodell in Excel erstellt und das Ergebnis analysiert, damit Sie ein Superstar-Analyst werden können.

Dies ist der siebte Artikel in meiner Excel-Reihe für Analysten. Ich empfehle dringend, die vorherigen Artikel zu lesen, um ein effizienterer Analytiker zu werden.:

Ich empfehle Ihnen, sich die folgenden Ressourcen anzusehen, wenn Sie ein Anfänger in Excel und Business Analytics sind:

Inhaltsverzeichnis

  1. Was ist lineare Regression??
  2. Holen Sie sich das wichtige Add Analytics ToolPak in Excel
  3. Implementierung der linearen Regression in Excel
  4. Interpretation der Ergebnisse unseres Vorhersagemodells
  5. Wie können wir das Modell verbessern?
  6. Vorhersagen in Excel treffen!

Was ist lineare Regression??

Lineare Regression ist die erste maschinelle Lerntechnik, die die meisten von uns lernen. Es ist auch die am weitesten verbreitete Technik für überwachtes Lernen in der Branche.

Aber, Was ist lineare Regression??

Es ist ein linearer Ansatz, um die Beziehung zwischen der abhängigen Variablen statistisch zu modellieren (die Variable, die Sie vorhersagen möchten) und die unabhängigen Variablen (die Faktoren, die zur Vorhersage verwendet werden). Lineare Regression liefert uns eine Gleichung wie diese:

Gleichung-2599410

Hier, wir haben Y als unsere abhängige Variable, die Xs sind die unabhängigen Variablen und alle Cs sind die Koeffizienten. Die Koeffizienten sind im Grunde die den Merkmalen zugeordneten Gewichte, je nach Bedeutung.

Die gebräuchlichste Methode zur Durchführung einer Regression ist die OLS (gewöhnliche kleinste Quadrate). Ihr Ziel ist es, die Summe der Quadrate zu reduzieren, um die Linie der besten Anpassung wie diese zu erhalten:

linear_regression_chart-4453416

Weitere Informationen zur linearen Regression, Hier sind einige Ressourcen:

Holen Sie sich das Excel-Add-In für das wichtige Analyse-ToolPack

So führen Sie eine Regressionsanalyse in Excel durch, Zuerst müssen wir Excel aktivieren Analysetools-Plugin. Analysis ToolPak in Excel ist ein Begleitprogramm, das Datenanalysetools für statistische und technische Analysen bereitstellt.

Um es zu Ihrer Arbeitsmappe hinzuzufügen, folge diesen Schritten.

Paso 1 – Excel-Optionen

Gehe zu Aufzeichnungen -> Auswahl:

0-8892476

Paso 2: ubicar Analytics ToolPak

Gehe zu Zubehör im linken Bereich -> Excel-Add-Ins verwalten -> Ir:

1-4-2928792

Paso 3: agregue Analytics ToolPak

Wähle aus “Analyse-Toolkit“Und drücke OK:

1-2-1-1940311

Sie haben das Analysis Toolkit erfolgreich in Excel hinzugefügt!! Sie können es überprüfen, indem Sie auf gehen Daten Balken auf Band.

Beginnen wir mit der Erstellung unseres Vorhersagemodells in Excel!!

Implementierung der linearen Regression in Excel

Vieles war bisher theoretisch. Jetzt, Lassen Sie uns in Excel eintauchen und eine lineare Regressionsanalyse ausführen!

Hier ist die Problemstellung, mit der wir arbeiten werden:

In der Stadt Winden . gibt es eine Schuhverkaufsgesellschaft. Das Unternehmen möchte den Umsatz durch jeden Kunden unter Berücksichtigung der folgenden Faktoren vorhersagen:: Kundenumsatz, Entfernung vom Haus zum Laden, Betriebsfrequenz des Kunden pro Woche.

Daten-3-2255320

Paso 1: wählen Sie Regression

Gehe zu Daten -> Datenanalyse:

2-4-9123585

Gehen Sie zu Datenanalyse im Data Toolkit, wählen Sie Regression und drücken Sie OK:

3-2-1136773

Paso 2: Optionen wählen

In diesem Schritt, wir werden einige der notwendigen Optionen für unsere Analyse auswählen, wie zum Beispiel:

  • Eingabebereich und: die Reichweite des unabhängigen Faktors
  • Eingabebereich x: die Bandbreite der abhängigen Faktoren
  • Ausgabebereich: der Zellbereich, in dem Sie die Ergebnisse anzeigen möchten.

4-3-2739531

Die anderen Optionen sind frei wählbar und Sie können sie für Ihren speziellen Zweck auswählen.

Drücken Sie OK Und schließlich haben wir in nur zwei Schritten eine Regressionsanalyse in Excel durchgeführt!! War es nicht so einfach? Jetzt sehen wir das Ergebnis der Regressionsanalyse in Excel.

Analyse der Ergebnisse unseres Vorhersagemodells in Excel

Die Implementierung des linearen Regressionsmodells war der einfache Teil. Jetzt kommt der komplizierte Aspekt unserer Analyse: interpretieren Sie die Ergebnisse des Vorhersagemodells in Excel.

Zusammenfassend, haben 3 Ausgabetypen und wir werden sie nacheinander behandeln:

  • Tabelle mit Regressionsstatistiken
  • ANOVA-Tabelle
  • Tabelle der Regressionskoeffizienten
  • Resttabelle

Tabelle mit Regressionsstatistiken

Die Tabelle der Regressionsstatistik sagt uns, wie gut die Linie der besten Anpassung die lineare Beziehung zwischen den unabhängigen und abhängigen Variablen definiert.. Zwei der wichtigsten Messungen sind die R-Quadrat- und die angepassten R-Quadrat-Werte..

das R Quadrat Statistik ist der Indikator für Güte der Anpassung was uns sagt, wie viel Varianz durch die Linie der besten Anpassung erklärt wird. Der Wert von R zum Quadrat variiert von 0 ein 1. In unserem Fall, wir haben den Wert von R zum Quadrat von 0,953, was bedeutet, dass unsere Linie in der Lage ist, die 95% der Varianz, ein gutes zeichen.

regression_stats-9605928

Aber es gibt ein Problem: während wir weitere Variablen hinzufügen, unser R-Quadrat-Wert wird weiter ansteigen, obwohl die Variable keine Auswirkung hat. R im Quadrat montiert löst dieses Problem und ist eine viel zuverlässigere Metrik.

ANOVA-Tabelle

ANOVA bedeutet Varianzanalyse. Diese Tabelle zerlegt die Summe der Quadrate in ihre Komponenten, um Details zur Variabilität innerhalb des Modells zu liefern..

Fügen Sie eine sehr wichtige Metrik hinzu, Bedeutung F (o la p-Wert), die uns sagt, ob Ihr Modell statistisch signifikant ist oder nicht. In einer Nussschale, bedeutet, dass unsere Ergebnisse wahrscheinlich nicht auf Zufälligkeit zurückzuführen sind, aber zu einer zugrunde liegenden Ursache. Der am häufigsten verwendete Schwellenwert für den p-Wert ist 0,05. Wenn wir einen niedrigeren Wert erhalten, wir sind startklar. Andererseits, wir müssten einen anderen Satz unabhängiger Variablen wählen.

anova-5582018

In unserem Fall, wir haben einen Wert deutlich unter der Schwelle von 0,05. ¡Genial, wir können jetzt weitermachen!

Tabelle der Regressionskoeffizienten

Die Koeffiziententabelle gliedert die Komponenten der Regressionsgerade in Form von Koeffizienten. Vieles davon können wir verstehen.

Für die Schuhfirma Winden, Es scheint, dass für jede Einheit der Zunahme in Eintrag, der Verkauf erhöht sich um 0.08 Einheiten, und eine Erhöhung um eine Einheit von Entfernung vom Laden steigt in 508 Einheiten!

Koeffizienten-2982651

Es scheint, dass eine Zunahme der Arbeitsfrequenz verringert den Umsatz in 24 Einheiten, aber können wir wirklich an diese Funktion glauben?? Wenn du dir das Bild oben ansiehst, Sie werden feststellen, dass sein p-Wert größer ist als 0.5, was bedeutet, dass es statistisch nicht signifikant ist. Wir werden im nächsten Abschnitt sehen, wie wir mit dieser Situation umgehen können..

Resttabelle

Die Residuentabelle gibt an, wie stark der vorhergesagte Wert vom tatsächlichen Wert abweicht. Es besteht aus den von unserem Modell vorhergesagten Werten:

Residuen-8832221

Wie können wir unser Modell verbessern?

Wie wir vorhin gesehen haben, der p-Wert der Variablen Arbeitsfrequenz ist mehr als 0,05, Lassen Sie uns also unsere Ergebnisse überprüfen, indem wir diese Variable aus unserer Analyse entfernen.

Wir werden alle oben genannten Schritte befolgen, aber die Spalte Ausführungshäufigkeit nicht einschließen:

Verbesserung-5456165

Wir sehen, dass sich der bereinigte R-Quadrat-Wert hier von 0,920 ein 0,929!

Vorhersagen in Excel treffen!

Wir haben die Regressionsanalyse parat, dann, Was können wir jetzt machen? Wir werden sehen.

Ein ehemaliger Kunde von Ihnen namens Aleksander kommt herein und wir wollen seine Verkäufe vorhersagen. Wir können einfach die Anzahl der Daten in das lineare Regressionsmodell eingeben und schon kann es losgehen!!

Aleksander hat ein Einkommen von 40.000 und lebt in 2 km vom Laden entfernt. Wie hoch sind die geschätzten Verkäufe?

Die Gleichung wird:

final_equation-1853377

Hier, Unser Modell hat geschätzt, dass Mr.. Aleksander würde zahlen 4218 Einheiten, um Ihr neues Paar Schuhe zu kaufen. Das ist die Macht der linearen Regression einfach in Microsoft Excel.

Abschließende Anmerkungen

In diesem Artikel, wir haben gelernt, wie man ein lineares Regressionsmodell in Excel erstellt und die Ergebnisse interpretiert. Ich hoffe, dieser Leitfaden hilft Ihnen, sich als Datenanalyst oder Wissenschaftler zu verbessern.

Analytics ToolPak besteht aus vielen weiteren Analysemöglichkeiten in Excel. Sie können viele andere statistische Analysen in Ihrem täglichen Leben ausprobieren!!

Abonniere unseren Newsletter

Wir senden Ihnen keine SPAM-Mail. Wir hassen es genauso wie du.