Panoramica
- Puoi eseguire la modellazione predittiva in Excel in pochi passaggi
- Ecco un tutorial passo passo su come costruire un modello di regressione lineare in Excel e come interpretare i risultati.
introduzione
Excel per la modellazione predittiva? Sul serio?
Generalmente, questa è la prima reazione che ottengo quando apro l'argomento. Questo è seguito da uno sguardo incredulo mentre dimostro come possiamo sfruttare la natura flessibile di Excel per creare modelli predittivi per i nostri progetti di data science e analisi..
Permettimi di farti una domanda: se i negozi intorno a te iniziassero a raccogliere dati sui clienti, Potresti adottare una strategia data-driven per vendere i tuoi prodotti?? Puoi prevedere le tue vendite o stimare il numero di prodotti che potrebbero essere venduti??
Ora ti starai chiedendo come diavolo costruiranno un modello statistico complesso in grado di prevedere queste cose. E imparare l'analisi o assumere un analista potrebbe essere fuori dalla tua portata.. Questa è la buona notizia: non c'è bisogno. Microsoft Excel ci offre la possibilità di creare modelli predittivi senza dover scrivere codice complesso che sorvola la testa della maggior parte delle persone.
Possiamo facilmente costruire un modello semplice come la regressione lineare in MS Excel che può aiutarci a eseguire analisi in pochi semplici passaggi. E non abbiamo bisogno di essere un maestro di Excel o Statistica per fare modelli predittivi!!
In questo articolo, spiegherò come costruire un modello di regressione lineare in excel e come analizzare il risultato in modo che tu possa diventare un analista superstar.
Questo è il settimo articolo della mia serie Excel per analisti. Consiglio vivamente di leggere gli articoli precedenti per diventare un analista più efficiente.:
Ti incoraggio a consultare le risorse di seguito se sei un principiante di Excel e Business Analytics:
Sommario
- Cos'è la regressione lineare??
- Ottieni l'importantissimo Add Analytics ToolPak in Excel
- Implementazione della regressione lineare in Excel
- Interpretazione dei risultati del nostro modello predittivo
- Come possiamo migliorare il modello??
- Fare previsioni in Excel!
Cos'è la regressione lineare??
La regressione lineare è la prima tecnica di apprendimento automatico che la maggior parte di noi impara. También es la técnica de apprendimento supervisionatoL'apprendimento supervisionato è un approccio di apprendimento automatico in cui un modello viene addestrato utilizzando un set di dati etichettati. Ogni input nel set di dati è associato a un output noto, consentendo al modello di imparare a prevedere i risultati per nuovi input. Questo metodo è ampiamente utilizzato in applicazioni come la classificazione delle immagini, Riconoscimento vocale e previsione delle tendenze, sottolineandone l'importanza in... más utilizada en la industria.
Ma, Cos'è la regressione lineare??
Es un enfoque lineal para modelar estadísticamente la relación entre la variabileIn statistica e matematica, un "variabile" è un simbolo che rappresenta un valore che può cambiare o variare. Esistono diversi tipi di variabili, e qualitativo, che descrivono caratteristiche non numeriche, e quantitativo, che rappresentano quantità numeriche. Le variabili sono fondamentali negli esperimenti e negli studi, poiché consentono l'analisi delle relazioni e dei modelli tra elementi diversi, facilitare la comprensione di fenomeni complessi.... dipendente (la variabile che vuoi prevedere) e le variabili indipendenti (i fattori utilizzati per prevedere). La regressione lineare ci fornisce un'equazione come questa:
Qui, abbiamo Y come nostra variabile dipendente, le X sono le variabili indipendenti e tutte le C sono i coefficienti. I coefficienti sono sostanzialmente i pesi assegnati alle caratteristiche, a seconda della sua importanza.
Il metodo più comune per eseguire la regressione è l'OLS (minimi quadrati ordinari). Il tuo obiettivo è ridurre la somma dei quadrati per produrre la linea più adatta come questa:
Per maggiori informazioni sulla regressione lineare, ecco alcune risorse:
Ottieni il componente aggiuntivo di Excel per l'importantissimo pacchetto di strumenti di analisi
Per eseguire un'analisi di regressione in Excel, prima dobbiamo abilitare Excel Plugin per strumenti di analisi. Analysis ToolPak in Excel è un programma complementare che fornisce strumenti di analisi dei dati per analisi statistiche e ingegneristiche.
Per aggiungerlo alla tua cartella di lavoro, Segui questi passi.
passo 1 – Opzioni di Excel
Vai a record -> scelte:
passo 2: ubicar Analytics ToolPak
Vai a Accessori a pannelloUn panel è un gruppo di esperti che si riunisce per discutere e analizzare un argomento specifico. Questi forum sono comuni alle conferenze, seminari e dibattiti pubblici, dove i partecipanti condividono le loro conoscenze e prospettive. I pannelli possono riguardare una varietà di aree, Dalla scienza alla politica, e il suo obiettivo è quello di favorire lo scambio di idee e la riflessione critica tra i partecipanti.... izquierdo -> Gestisci i componenti aggiuntivi di Excel -> Ir:
passo 3: ToolPak di analisi aggregati
Seleziona il “Toolkit di analisi“e premi ok:
Hai aggiunto con successo il Toolkit di analisi in Excel!! Puoi verificarlo andando su Dati barra su nastro.
Iniziamo a costruire il nostro modello predittivo in Excel!!
Implementazione della regressione lineare in Excel
Molte cose erano teoriche fino ad ora. Ora, tuffiamoci in Excel ed eseguiamo l'analisi di regressione lineare!
Ecco la dichiarazione del problema con cui lavoreremo:
C'è una società di vendita di scarpe nella città di Winden. L'azienda vuole prevedere le vendite attraverso ciascun cliente considerando i seguenti fattori: entrate del cliente, distanza da casa a negozio, frequenza operativa del cliente a settimana.
passo 1: seleziona Regressione
Vai a Dati -> Analisi dei dati:
Vai a Analisi dei dati nel Data Toolkit, selezionare Regressione e premere ok:
passo 2: seleziona Opzioni
In questo passaggio, selezioneremo alcune delle opzioni necessarie per la nostra analisi, come:
- Intervallo di ingresso e: l'intervallo del fattore indipendente
- Intervallo di ingresso x: la gamma di fattori dipendenti
- Gamma di uscita: l'intervallo di celle in cui si desidera visualizzare i risultati.
Le altre opzioni sono discrezionali e puoi selezionarle per il tuo scopo specifico.
premere ok E infine abbiamo eseguito un'analisi di regressione in Excel in soli due passaggi!! Non è stato così facile?? Ora vedremo il risultato dell'analisi di regressione in Excel.
Analizzare i risultati del nostro modello predittivo in Excel
L'implementazione del modello di regressione lineare è stata la parte facile. Ora arriva l'aspetto complicato della nostra analisi: interpretare i risultati del modello predittivo in Excel.
In sintesi, avere 3 tipi di output e li tratteremo uno per uno:
- Tabella delle statistiche di regressione
- ANOVA tavolo
- Tabella dei coefficienti di regressione
- Tavolo residuo
Tabella delle statistiche di regressione
La tabella delle statistiche di regressione ci dice quanto bene la linea di miglior adattamento definisce la relazione lineare tra le variabili indipendenti e dipendenti.. Due delle misure più importanti sono i valori R al quadrato e R al quadrato aggiustato..
il R-quadrato le statistiche sono l'indicatore di bontà di adattamento che ci dice quanta varianza è spiegata dalla linea di miglior adattamento. Il valore di R al quadrato varia da 0 un 1. Nel nostro caso, abbiamo il valore di R al quadrato di 0,953, il che significa che la nostra linea è in grado di spiegare il 95% della varianza, un buon segno.
Ma c'è un problema: un misuraIl "misura" È un concetto fondamentale in diverse discipline, che si riferisce al processo di quantificazione delle caratteristiche o delle grandezze degli oggetti, fenomeni o situazioni. In matematica, Utilizzato per determinare le lunghezze, Aree e volumi, mentre nelle scienze sociali può riferirsi alla valutazione di variabili qualitative e quantitative. L'accuratezza della misurazione è fondamentale per ottenere risultati affidabili e validi in qualsiasi ricerca o applicazione pratica.... que seguimos agregando más variables, il nostro valore R al quadrato continuerà ad aumentare anche se la variabile non ha effetto. R quadrato montato risolve questo problema ed è una metrica molto più affidabile.
ANOVA tavolo
ANOVA significa Analisi della varianza. Questa tabella scompone la somma dei quadrati nelle sue componenti per fornire dettagli sulla variabilità all'interno del modello..
Includi una metrica molto importante, Significato F (o la valore p), che ci dice se il tuo modello è statisticamente significativo o meno. In poche parole, significa che i nostri risultati probabilmente non sono dovuti alla casualità, ma a una causa di fondo. La soglia più comunemente usata per il p-value è 0,05. Se otteniamo un valore inferiore a questo, siamo pronti per iniziare. Altrimenti, dovremmo scegliere un altro insieme di variabili indipendenti.
Nel nostro caso, abbiamo un valore ben al di sotto della soglia di 0,05. ¡Geniale, possiamo andare avanti ora!
Tabella dei coefficienti di regressione
La tabella dei coefficienti scompone i componenti della retta di regressione sotto forma di coefficienti. Possiamo capirne molte di queste.
Per l'azienda di scarpe Winden, Sembra che per ogni unità di aumento di iscrizione, la vendita aumenta di 0.08 unità, e un aumento di un'unità di distanza dal negozio aumenta in 508 unità!
Sembra che un aumento di frequenza operativa diminuisce le vendite in 24 unità, ma possiamo davvero credere in questa caratteristica?? Se guardi la foto sopra, noterai che il suo p-value è maggiore di 0.5, il che significa che non è statisticamente significativo. Vedremo come possiamo gestire questa situazione nella prossima sezione..
Tavolo residuo
La tabella dei residui riflette quanto varia il valore previsto dal valore effettivo. Consiste nei valori previsti dal nostro modello:
Come possiamo migliorare il nostro modello?
Come abbiamo visto prima, il p-value della variabile frequenza operativa è più che 0,05, quindi controlliamo i nostri risultati rimuovendo questa variabile dalla nostra analisi.
Seguiremo tutti i passaggi sopra menzionati ma non includeremo la colonna della frequenza di esecuzione:
Osserviamo che il valore R-quadrato aggiustato è leggermente migliorato qui da 0,920 un 0,929!
Fare previsioni in Excel!
Abbiamo l'analisi di regressione pronta, poi, Cosa possiamo fare adesso? Vedremo.
Un suo ex cliente di nome Aleksander entra e vogliamo prevedere le sue vendite. Possiamo semplicemente inserire il numero di dati nel modello di regressione lineare e siamo a posto!!
Aleksander ha un reddito di 40k e vive a 2 km dal negozio. Quali sono le vendite stimate?
L'equazione diventa:
Qui, il nostro modello ha stimato che il sig.. Aleksander pagherebbe 4218 unità per acquistare il tuo nuovo paio di scarpe. Questo è il potere della regressione lineare semplicemente eseguita in Microsoft Excel.
Note finali
In questo articolo, abbiamo imparato come costruire un modello di regressione lineare in Excel e come interpretare i risultati. Spero che questa guida ti aiuti a migliorare come analista di dati o scienziato.
Analytics ToolPak comprende molte altre opzioni di analisi in Excel. Puoi provare molte altre analisi statistiche nella tua vita quotidiana!!