Modellazione predittiva in Excel | Come creare un modello di regressione lineare

Contenuti

Panoramica

  • Puoi eseguire la modellazione predittiva in Excel in pochi passaggi
  • Ecco un tutorial passo passo su come costruire un modello di regressione lineare in Excel e come interpretare i risultati.

introduzione

Excel per la modellazione predittiva? Sul serio?

Generalmente, questa è la prima reazione che ottengo quando apro l'argomento. Questo è seguito da uno sguardo incredulo mentre dimostro come possiamo sfruttare la natura flessibile di Excel per creare modelli predittivi per i nostri progetti di data science e analisi..

Permettimi di farti una domanda: se i negozi intorno a te iniziassero a raccogliere dati sui clienti, Potresti adottare una strategia data-driven per vendere i tuoi prodotti?? Puoi prevedere le tue vendite o stimare il numero di prodotti che potrebbero essere venduti??

regressione-lineare-in-excel-4513817

Ora ti starai chiedendo come diavolo costruiranno un modello statistico complesso in grado di prevedere queste cose. E imparare l'analisi o assumere un analista potrebbe essere fuori dalla tua portata.. Questa è la buona notizia: non c'è bisogno. Microsoft Excel ci offre la possibilità di creare modelli predittivi senza dover scrivere codice complesso che sorvola la testa della maggior parte delle persone.

Possiamo facilmente costruire un modello semplice come la regressione lineare in MS Excel che può aiutarci a eseguire analisi in pochi semplici passaggi. E non abbiamo bisogno di essere un maestro di Excel o Statistica per fare modelli predittivi!!

In questo articolo, spiegherò come costruire un modello di regressione lineare in excel e come analizzare il risultato in modo che tu possa diventare un analista superstar.

Questo è il settimo articolo della mia serie Excel per analisti. Consiglio vivamente di leggere gli articoli precedenti per diventare un analista più efficiente.:

Ti incoraggio a consultare le risorse di seguito se sei un principiante di Excel e Business Analytics:

Sommario

  1. Cos'è la regressione lineare??
  2. Ottieni l'importantissimo Add Analytics ToolPak in Excel
  3. Implementazione della regressione lineare in Excel
  4. Interpretazione dei risultati del nostro modello predittivo
  5. Come possiamo migliorare il modello??
  6. Fare previsioni in Excel!

Cos'è la regressione lineare??

La regressione lineare è la prima tecnica di apprendimento automatico che la maggior parte di noi impara. È anche la tecnica di apprendimento supervisionato più utilizzata nel settore.

Ma, Cos'è la regressione lineare??

È un approccio lineare per modellare statisticamente la relazione tra la variabile dipendente (la variabile che vuoi prevedere) e le variabili indipendenti (i fattori utilizzati per prevedere). La regressione lineare ci fornisce un'equazione come questa:

equazione-2599410

Qui, abbiamo Y come nostra variabile dipendente, le X sono le variabili indipendenti e tutte le C sono i coefficienti. I coefficienti sono sostanzialmente i pesi assegnati alle caratteristiche, a seconda della sua importanza.

Il metodo più comune per eseguire la regressione è l'OLS (minimi quadrati ordinari). Il tuo obiettivo è ridurre la somma dei quadrati per produrre la linea più adatta come questa:

linear_regression_chart-4453416

Per maggiori informazioni sulla regressione lineare, ecco alcune risorse:

Ottieni il componente aggiuntivo di Excel per l'importantissimo pacchetto di strumenti di analisi

Per eseguire un'analisi di regressione in Excel, prima dobbiamo abilitare Excel Plugin per strumenti di analisi. Analysis ToolPak in Excel è un programma complementare che fornisce strumenti di analisi dei dati per analisi statistiche e ingegneristiche.

Per aggiungerlo alla tua cartella di lavoro, Segui questi passi.

passo 1 – Opzioni di Excel

Vai a record -> scelte:

0-8892476

passo 2: ubicar Analytics ToolPak

Vai a Accessori nel pannello di sinistra -> Gestisci i componenti aggiuntivi di Excel -> Ir:

1-4-2928792

passo 3: ToolPak di analisi aggregati

Seleziona il “Toolkit di analisi“e premi ok:

1-2-1-1940311

Hai aggiunto con successo il Toolkit di analisi in Excel!! Puoi verificarlo andando su Dati barra su nastro.

Iniziamo a costruire il nostro modello predittivo in Excel!!

Implementazione della regressione lineare in Excel

Molte cose erano teoriche fino ad ora. Ora, tuffiamoci in Excel ed eseguiamo l'analisi di regressione lineare!

Ecco la dichiarazione del problema con cui lavoreremo:

C'è una società di vendita di scarpe nella città di Winden. L'azienda vuole prevedere le vendite attraverso ciascun cliente considerando i seguenti fattori: entrate del cliente, distanza da casa a negozio, frequenza operativa del cliente a settimana.

dati-3-2255320

passo 1: seleziona Regressione

Vai a Dati -> Analisi dei dati:

2-4-9123585

Vai a Analisi dei dati nel Data Toolkit, selezionare Regressione e premere ok:

3-2-1136773

passo 2: seleziona Opzioni

In questo passaggio, selezioneremo alcune delle opzioni necessarie per la nostra analisi, come:

  • Intervallo di ingresso e: l'intervallo del fattore indipendente
  • Intervallo di ingresso x: la gamma di fattori dipendenti
  • Gamma di uscita: l'intervallo di celle in cui si desidera visualizzare i risultati.

4-3-2739531

Le altre opzioni sono discrezionali e puoi selezionarle per il tuo scopo specifico.

premere ok E infine abbiamo eseguito un'analisi di regressione in Excel in soli due passaggi!! Non è stato così facile?? Ora vedremo il risultato dell'analisi di regressione in Excel.

Analizzare i risultati del nostro modello predittivo in Excel

L'implementazione del modello di regressione lineare è stata la parte facile. Ora arriva l'aspetto complicato della nostra analisi: interpretare i risultati del modello predittivo in Excel.

In sintesi, avere 3 tipi di output e li tratteremo uno per uno:

  • Tabella delle statistiche di regressione
  • ANOVA tavolo
  • Tabella dei coefficienti di regressione
  • Tavolo residuo

Tabella delle statistiche di regressione

La tabella delle statistiche di regressione ci dice quanto bene la linea di miglior adattamento definisce la relazione lineare tra le variabili indipendenti e dipendenti.. Due delle misure più importanti sono i valori R al quadrato e R al quadrato aggiustato..

il R-quadrato le statistiche sono l'indicatore di bontà di adattamento che ci dice quanta varianza è spiegata dalla linea di miglior adattamento. Il valore di R al quadrato varia da 0 un 1. Nel nostro caso, abbiamo il valore di R al quadrato di 0,953, il che significa che la nostra linea è in grado di spiegare il 95% della varianza, un buon segno.

regression_stats-9605928

Ma c'è un problema: mentre continuiamo ad aggiungere più variabili, il nostro valore R al quadrato continuerà ad aumentare anche se la variabile non ha effetto. R quadrato montato risolve questo problema ed è una metrica molto più affidabile.

ANOVA tavolo

ANOVA significa Analisi della varianza. Questa tabella scompone la somma dei quadrati nelle sue componenti per fornire dettagli sulla variabilità all'interno del modello..

Includi una metrica molto importante, Significato F (o la valore p), che ci dice se il tuo modello è statisticamente significativo o meno. In poche parole, significa che i nostri risultati probabilmente non sono dovuti alla casualità, ma a una causa di fondo. La soglia più comunemente usata per il p-value è 0,05. Se otteniamo un valore inferiore a questo, siamo pronti per iniziare. Altrimenti, dovremmo scegliere un altro insieme di variabili indipendenti.

anova-5582018

Nel nostro caso, abbiamo un valore ben al di sotto della soglia di 0,05. ¡Geniale, possiamo andare avanti ora!

Tabella dei coefficienti di regressione

La tabella dei coefficienti scompone i componenti della retta di regressione sotto forma di coefficienti. Possiamo capirne molte di queste.

Per l'azienda di scarpe Winden, Sembra che per ogni unità di aumento di iscrizione, la vendita aumenta di 0.08 unità, e un aumento di un'unità di distanza dal negozio aumenta in 508 unità!

coefficienti-2982651

Sembra che un aumento di frequenza operativa diminuisce le vendite in 24 unità, ma possiamo davvero credere in questa caratteristica?? Se guardi la foto sopra, noterai che il suo p-value è maggiore di 0.5, il che significa che non è statisticamente significativo. Vedremo come possiamo gestire questa situazione nella prossima sezione..

Tavolo residuo

La tabella dei residui riflette quanto varia il valore previsto dal valore effettivo. Consiste nei valori previsti dal nostro modello:

residui-8832221

Come possiamo migliorare il nostro modello?

Come abbiamo visto prima, il p-value della variabile frequenza operativa è più che 0,05, quindi controlliamo i nostri risultati rimuovendo questa variabile dalla nostra analisi.

Seguiremo tutti i passaggi sopra menzionati ma non includeremo la colonna della frequenza di esecuzione:

miglioramento-5456165

Osserviamo che il valore R-quadrato aggiustato è leggermente migliorato qui da 0,920 un 0,929!

Fare previsioni in Excel!

Abbiamo l'analisi di regressione pronta, poi, Cosa possiamo fare adesso? Vedremo.

Un suo ex cliente di nome Aleksander entra e vogliamo prevedere le sue vendite. Possiamo semplicemente inserire il numero di dati nel modello di regressione lineare e siamo a posto!!

Aleksander ha un reddito di 40k e vive a 2 km dal negozio. Quali sono le vendite stimate?

L'equazione diventa:

final_equation-1853377

Qui, il nostro modello ha stimato che il sig.. Aleksander pagherebbe 4218 unità per acquistare il tuo nuovo paio di scarpe. Questo è il potere della regressione lineare semplicemente eseguita in Microsoft Excel.

Note finali

In questo articolo, abbiamo imparato come costruire un modello di regressione lineare in Excel e come interpretare i risultati. Spero che questa guida ti aiuti a migliorare come analista di dati o scienziato.

Analytics ToolPak comprende molte altre opzioni di analisi in Excel. Puoi provare molte altre analisi statistiche nella tua vita quotidiana!!

Iscriviti alla nostra Newsletter

Non ti invieremo posta SPAM. Lo odiamo quanto te.