Analisi esplorativa | Analisi invariate, bivariato e multivariato

Contenuti

introduzione

I dati sono ovunque intorno a noi, nei fogli di calcolo, su varie piattaforme di social media, sui moduli di indagine e altro. Il processo di pulizia, trasformazione, interpretazione, l'analisi e la visualizzazione di questi dati per estrarre informazioni utili e ottenere informazioni preziose per prendere decisioni aziendali più efficaci si chiama Data Analysis.

L'analisi dei dati può essere organizzata in 6 tipi

  1. Analisi esplorativa
  2. Analisi descrittiva
  3. Analisi inferenziale
  4. Analisi predittiva
  5. Analisi causale
  6. Analisi meccanicistica

Qui, ci tufferemo in profondità Analisi esplorativa,

Analisi esplorativa

Analisi preliminare dei dati per scoprire le relazioni tra le misure nei dati e per ottenere informazioni sulle tendenze, modelli e relazioni tra varie entità presenti nel set di dati con l'aiuto di statistiche e strumenti di visualizzazione si chiama Exploratory Data Analysis (EDA). .

L'analisi dei dati esplorativi è classificata in modo incrociato in due modi diversi in cui ciascun metodo è grafico o non grafico. E più tardi, ogni metodo è univariato, bivariato o multivariato.

Analisi invariate

Uni significa uno e variabile significa variabile, quindi nell'analisi univariata, c'è solo una variabile affidabile. L'obiettivo dell'analisi univariata è di derivare i dati, definirli e sintetizzarli e analizzare il pattern presente in essi. In un set di dati, esplorare ogni variabile separatamente. È possibile per due tipi di variabili: categorico e numerico.

Alcuni modelli che possono essere facilmente identificati con l'analisi univariata sono trend centrale (media, moda e media), Dispersione (classifica, varianza), quartili (intervallo interquartile) e deviazione standard.

I dati univariati possono essere descritti da:

Ø Tabelle di distribuzione della frequenza

La tabella di distribuzione della frequenza riflette la frequenza con cui si è verificata un'occorrenza nei dati. Dà una breve idea dei dati e rende facile trovare modelli.

Esempio:

L'elenco dei punteggi del QI è: 118, 139, 124, 125, 127, 128, 129, 130, 130, 133, 136, 138, 141, 142, 149, 130, 154.

Gamma QINumero
118-1253
126-1337
134-1414
142-1492
150-1571

Ø Istogramma

Il grafico a barre è molto comodo quando si confrontano categorie di dati o diversi gruppi di dati. Aiuta a tenere traccia dei cambiamenti nel tempo. È meglio per la visualizzazione di dati discreti.

immagine10-9478352

Ø istogrammi

Gli istogrammi sono simili ai grafici a barre e mostrano le stesse variabili categoriali nella categoria di dati. Gli istogrammi visualizzano queste categorie come contenitori che indicano il numero di punti dati in un intervallo.. È meglio per visualizzare dati continui.

immagine11-3900034

Ø Grafici a torta

I grafici a torta sono usati principalmente per capire come un gruppo è diviso in parti più piccole. L'intera torta rappresenta il 100 la percentuale e le porzioni indicano la dimensione relativa di quella particolare categoria.

immagine14-530408

Ø Poligoni di frequenza

Simile agli istogrammi, un poligono di frequenza viene utilizzato per confrontare i set di dati o mostrare la distribuzione di frequenza cumulativa.

immagine6-1-3679285

Analisi bivariata

Bi significa due e variabile significa variabile, affinché ecco due variabili. L'analisi è relativa alla causa e alla relazione tra le due variabili. Esistono tre tipi di analisi bivariata.

Analisi bivariata di due variabili numeriche (Numerico-Numerico)

Ø Grafico a dispersione

UN Il grafico a dispersione rappresenta i dati individuali utilizzando i punti. Questi grafici rendono facile vedere se due variabili sono correlate tra loro. Il modello risultante indica il tipo (lineare o non lineare) e la forza della relazione tra due variabili.

immagine8-2-1095367

Ø Correlazione lineare

lineare Correlation rappresenta la forza di una relazione lineare tra due variabili numeriche. Se non c'è correlazione tra le due variabili, non c'è tendenza a cambiare insieme ai valori della seconda quantità.

immagine13-8709111

Qui, R misura la forza di una relazione lineare ed è sempre tra -1 e 1 dove -1 denota una perfetta correlazione lineare negativa e +1 denota una perfetta correlazione lineare positiva e zero indica nessuna correlazione lineare.immagine4-1-4052764

Analisi bivariata di due variabili categoriali (Categorico-Categorico)

Ø Test del chi quadrato

Il test chi quadrato viene utilizzato per determinare l'associazione tra variabili categoriali. Viene calcolato in base alla differenza tra le frequenze attese e le frequenze osservate in una o più categorie della tabella delle frequenze. Una probabilità pari a zero indica una dipendenza completa tra due variabili categoriali e una probabilità pari a uno indica che due variabili categoriali sono completamente indipendenti..

Qui, il pedice c indica i gradi di libertà, O indica il valore osservato ed E indica il valore atteso.

immagine12-8200380

Analisi bivariata di un variabile numerico e un categorico (Numerico-Categorico)

Ø Prova Z e prova t

I test Z e T sono importanti per calcolare se la differenza tra un campione e una popolazione è sostanziale..

immagine1-8687716

Se la probabilità di Z è piccola, la differenza tra le due medie è più significativa.

Prova T

immagine9-2150508

Se la dimensione del campione è abbastanza grande, usiamo un test Z, e per una piccola dimensione del campione, usiamo un test T.

Ø ANALISI DEGLI SCOSTAMENTI (ANOVA)

Il test ANOVA viene utilizzato per determinare se esiste una differenza significativa tra le medie di più di due gruppi statisticamente diversi tra loro.. Questa analisi è appropriata per confrontare le medie di una variabile numerica per più di due categorie di una variabile categoriale..

immagine2-1-2645045

Analisi multivariabile

L'analisi multivariata è necessaria quando più di due variabili devono essere analizzate contemporaneamente. È un compito tremendamente difficile per il cervello umano visualizzare una relazione tra 4 variabili in un grafico e, così, l'analisi multivariata viene utilizzata per studiare set di dati più complessi. I tipi di analisi multivariata includono l'analisi cluster, analisi fattoriale, analisi di regressione multipla, analisi del componente principale, eccetera. Ci sono più di 20 diversi modi per eseguire analisi multivariate e quale scegliere dipende dal tipo di dati e dall'obiettivo finale da raggiungere. Le forme più comuni sono:

Ø Analisi cluster

L'analisi dei cluster classifica diversi oggetti in cluster in modo che la somiglianza tra due oggetti nello stesso gruppo sia massima e minima altrimenti. Utilizzato quando le righe e le colonne del La tabella dei dati rappresenta le stesse unità e la misura rappresenta la distanza o la somiglianza.

immagine7-3792319

Ø Analisi del componente principale (PCA)

Analisi del componente principale (o PCA) utilizzato per ridurre la dimensionalità di una tabella di dati con un gran numero di misure correlate. Qui, le variabili originali diventano un nuovo insieme di variabili, che sono conosciuti come “Componenti principali” analisi del componente principale.

PCA viene utilizzato per il set di dati che mostra la multicollinearità. Sebbene le stime dei minimi quadrati siano distorte, la distanza tra le varianze e il loro valore reale può essere molto grande. Quindi, La PCA aggiunge un po' di distorsione e riduce l'errore standard per il modello di regressione.

immagine3-1-1482659

Ø Analisi della corrispondenza

L'analisi della corrispondenza utilizzando i dati di una tabella di contingenza mostra le relazioni relative tra due diversi gruppi di variabili. Una tabella di contingenza è una tabella 2D con righe e colonne come gruppi di variabili.

immagine5-1-7331464

conclusione

Spero che tu ora abbia una migliore comprensione delle varie tecniche utilizzate nell'analisi univariata, bivariato e multivariato.

Il supporto mostrato in questo articolo non è di proprietà di DataPeaker e viene utilizzato a discrezione dell'autore.

Iscriviti alla nostra Newsletter

Non ti invieremo posta SPAM. Lo odiamo quanto te.