introduzione
I dati sono ovunque intorno a noi, nei fogli di calcolo, su varie piattaforme di social media, sui moduli di indagine e altro. Il processo di pulizia, trasformazione, interpretazione, l'analisi e la visualizzazione di questi dati per estrarre informazioni utili e ottenere informazioni preziose per prendere decisioni aziendali più efficaci si chiama Data Analysis.
L'analisi dei dati può essere organizzata in 6 tipi
- Analisi esplorativa
- Analisi descrittiva
- Analisi inferenziale
- Analisi predittiva
- Analisi causale
- Analisi meccanicistica
Qui, ci tufferemo in profondità Analisi esplorativa,
Analisi esplorativa
Analisi preliminare dei dati per scoprire le relazioni tra le misure nei dati e per ottenere informazioni sulle tendenze, modelli e relazioni tra varie entità presenti nel set di dati con l'aiuto di statistiche e strumenti di visualizzazione si chiama Exploratory Data Analysis (EDA). .
L'analisi dei dati esplorativi è classificata in modo incrociato in due modi diversi in cui ciascun metodo è grafico o non grafico. E più tardi, ogni metodo è univariato, bivariato o multivariato.
Analisi invariate
Uni significa uno e variabile significa variabile, quindi nell'analisi univariata, c'è solo una variabile affidabile. L'obiettivo dell'analisi univariata è di derivare i dati, definirli e sintetizzarli e analizzare il pattern presente in essi. In un set di dati, esplorare ogni variabile separatamente. È possibile per due tipi di variabili: categorico e numerico.
Alcuni modelli che possono essere facilmente identificati con l'analisi univariata sono trend centrale (media, moda e media), Dispersione (classifica, varianza), quartili (intervallo interquartile) e deviazione standard.
I dati univariati possono essere descritti da:
Ø Tabelle di distribuzione della frequenza
La tabella di distribuzione della frequenza riflette la frequenza con cui si è verificata un'occorrenza nei dati. Dà una breve idea dei dati e rende facile trovare modelli.
Esempio:
L'elenco dei punteggi del QI è: 118, 139, 124, 125, 127, 128, 129, 130, 130, 133, 136, 138, 141, 142, 149, 130, 154.
Gamma QI | Numero |
118-125 | 3 |
126-133 | 7 |
134-141 | 4 |
142-149 | 2 |
150-157 | 1 |
Ø Istogramma
Il grafico a barre è molto comodo quando si confrontano categorie di dati o diversi gruppi di dati. Aiuta a tenere traccia dei cambiamenti nel tempo. È meglio per la visualizzazione di dati discreti.
Ø istogrammiGli istogrammi sono rappresentazioni grafiche che mostrano la distribuzione di un set di dati. Sono costruiti dividendo l'intervallo di valori in intervalli, oh "Bidoni", e il conteggio della quantità di dati che cadono in ogni intervallo. Questa visualizzazione consente di identificare i modelli, tendenze e variabilità dei dati in modo efficace, facilitare l'analisi statistica e il processo decisionale informato in varie discipline....
Gli istogrammi sono simili ai grafici a barre e mostrano le stesse variabili categoriali nella categoria di dati. Gli istogrammi visualizzano queste categorie come contenitori che indicano il numero di punti dati in un intervallo.. È meglio per visualizzare dati continui.
Ø Grafici a torta
I grafici a torta sono usati principalmente per capire come un gruppo è diviso in parti più piccole. L'intera torta rappresenta il 100 la percentuale e le porzioni indicano la dimensione relativa di quella particolare categoria.
Ø Poligoni di frequenza
Simile agli istogrammi, un poligono di frequenza viene utilizzato per confrontare i set di dati o mostrare la distribuzione di frequenza cumulativa.
Analisi bivariata
Bi significa due e variabile significa variabile, affinché ecco due variabili. L'analisi è relativa alla causa e alla relazione tra le due variabili. Esistono tre tipi di analisi bivariata.
Analisi bivariata di due variabili numeriche (Numerico-Numerico)
Ø Grafico a dispersioneUn gráfico de dispersión es una representación visual que muestra la relación entre dos variables numéricas mediante puntos en un plano cartesiano. Cada eje representa una variable, y la ubicación de cada punto indica su valor en relación con ambas. Este tipo de gráfico es útil para identificar patrones, correlaciones y tendencias en los datos, facilitando el análisis y la interpretación de relaciones cuantitativas....
UN Il grafico a dispersione rappresenta i dati individuali utilizzando i punti. Questi grafici rendono facile vedere se due variabili sono correlate tra loro. Il modello risultante indica il tipo (lineare o non lineare) e la forza della relazione tra due variabili.
Ø Correlazione lineare
lineare Correlation rappresenta la forza di una relazione lineare tra due variabili numeriche. Se non c'è correlazione tra le due variabili, non c'è tendenza a cambiare insieme ai valori della seconda quantità.
Qui, R misura la forza di una relazione lineare ed è sempre tra -1 e 1 dove -1 denota una perfetta correlazione lineare negativa e +1 denota una perfetta correlazione lineare positiva e zero indica nessuna correlazione lineare.
Analisi bivariata di due variabili categoriali (Categorico-Categorico)
Ø Test del chi quadrato
Il test chi quadrato viene utilizzato per determinare l'associazione tra variabili categoriali. Viene calcolato in base alla differenza tra le frequenze attese e le frequenze osservate in una o più categorie della tabella delle frequenze. Una probabilità pari a zero indica una dipendenza completa tra due variabili categoriali e una probabilità pari a uno indica che due variabili categoriali sono completamente indipendenti..
Qui, il pedice c indica i gradi di libertà, O indica il valore osservato ed E indica il valore atteso.
Análisis bivariado de una variabileIn statistica e matematica, un "variabile" è un simbolo che rappresenta un valore che può cambiare o variare. Esistono diversi tipi di variabili, e qualitativo, che descrivono caratteristiche non numeriche, e quantitativo, che rappresentano quantità numeriche. Le variabili sono fondamentali negli esperimenti e negli studi, poiché consentono l'analisi delle relazioni e dei modelli tra elementi diversi, facilitare la comprensione di fenomeni complessi.... numérica y una categórica (Numerico-Categorico)
Ø Prova Z e prova t
I test Z e T sono importanti per calcolare se la differenza tra un campione e una popolazione è sostanziale..
Se la probabilità di Z è piccola, la differenza tra le due medie è più significativa.
Prova T
Se la dimensione del campione è abbastanza grande, usiamo un test Z, e per una piccola dimensione del campione, usiamo un test T.
Ø ANALISI DEGLI SCOSTAMENTI (ANOVA)
Il test ANOVA viene utilizzato per determinare se esiste una differenza significativa tra le medie di più di due gruppi statisticamente diversi tra loro.. Questa analisi è appropriata per confrontare le medie di una variabile numerica per più di due categorie di una variabile categoriale..
Analisi multivariabile
L'analisi multivariata è necessaria quando più di due variabili devono essere analizzate contemporaneamente. È un compito tremendamente difficile per il cervello umano visualizzare una relazione tra 4 variabili in un grafico e, così, l'analisi multivariata viene utilizzata per studiare set di dati più complessi. I tipi di analisi multivariata includono l'analisi cluster, analisi fattoriale, analisi di regressione multipla, analisi del componente principale, eccetera. Ci sono più di 20 diversi modi per eseguire analisi multivariate e quale scegliere dipende dal tipo di dati e dall'obiettivo finale da raggiungere. Le forme più comuni sono:
Ø Analisi cluster
L'analisi dei cluster classifica diversi oggetti in cluster in modo che la somiglianza tra due oggetti nello stesso gruppo sia massima e minima altrimenti. Utilizzato quando le righe e le colonne del La tabella dei dati rappresenta le stesse unità e la misura rappresenta la distanza o la somiglianza.
Ø Analisi del componente principale (PCA)
Analisi del componente principale (o PCA) utilizzato per ridurre la dimensionalità di una tabella di dati con un gran numero di misure correlate. Qui, le variabili originali diventano un nuovo insieme di variabili, che sono conosciuti come “Componenti principali” analisi del componente principale.
PCA viene utilizzato per il set di dati che mostra la multicollinearità. Sebbene le stime dei minimi quadrati siano distorte, la distanza tra le varianze e il loro valore reale può essere molto grande. Quindi, La PCA aggiunge un po' di distorsione e riduce l'errore standard per il modello di regressione.
Ø Analisi della corrispondenza
L'analisi della corrispondenza utilizzando i dati di una tabella di contingenza mostra le relazioni relative tra due diversi gruppi di variabili. Una tabella di contingenza è una tabella 2D con righe e colonne come gruppi di variabili.
conclusione
Spero che tu ora abbia una migliore comprensione delle varie tecniche utilizzate nell'analisi univariata, bivariato e multivariato.
Il supporto mostrato in questo articolo non è di proprietà di DataPeaker e viene utilizzato a discrezione dell'autore.
Imparentato
Articoli correlati:
- Padronanza dell'analisi esplorativa dei dati (EDA) per gli appassionati di scienza dei dati
- Analisi esplorativa dei dati mediante tecniche di visualizzazione dei dati.
- Analisi vs Analisi | Analisi dei dati vs analisi dei dati, sono simili?
- Analisi delle serie temporali | Qual è la serie temporale?? Analisi delle serie temporali in Python