Padronanza dell'analisi esplorativa dei dati (EDA) per gli appassionati di scienza dei dati

Contenuti

Panoramica

  • Approccio passo dopo passo all'esecuzione dell'EDA
  • Risorse come i blog, MOOCS per familiarizzare con EDA
  • Acquisire familiarità con varie tecniche di visualizzazione dei dati, grafici e diagrammi.
  • Dimostrazione di alcuni passaggi con lo snippet di codice Python

Cos'è che differenzia un professionista della scienza dei dati dall'altro??

Non è apprendimento automatico, Non è apprendimento profondo, non è sql, è l'analisi esplorativa dei dati (EDA). Quanto è buono uno con l'identificazione del modello? / tendenze nascoste nei dati e quanto siano preziose le informazioni, è ciò che distingue i professionisti dei dati.

1. Cos'è l'analisi esplorativa dei dati?

L'analisi dei dati esplorativi è un approccio per analizzare i set di dati per riassumerne le caratteristiche principali, spesso utilizzando grafici statistici e altri metodi di visualizzazione dei dati.
EDA aiuta i professionisti della scienza dei dati in diversi modi: –

1 Ottieni una migliore comprensione dei dati
2 Identifica vari modelli di dati
3 Comprendere meglio l'affermazione del problema

[ Nota: il set di dati in this blog is being opted as iris dataset]

2. Verifica dei dettagli introduttivi sui dati

Il primo e più importante passaggio di qualsiasi analisi dei dati, dopo aver caricato il file di dati, dovrebbe consistere nel controllare alcuni dettagli introduttivi. Che cosa, no. di colonne, no. di righe, tipi di funzionalità (categoriale o numerica), tipi di dati di immissione di colonna.

Frammento di codice Python

data.info ()


Indice di intervallo: 150 Biglietti, 0 un 149
colonne di dati (5 colonne in totale):
# Colonna Tipo di conteggio non nullo
– —— ————– —–
0 sepal_lunghezza 150 non null float64
1 larghezza_sepalo 150 float64 non nullo
2 petalo_lunghezza 150 non null float64
3 larghezza_petalo 150 non null float64
4 specie 150 oggetto non nullo
tipi d: float64 (4), oggetto (1)
utilizzo della memoria: 6.0+ KB

data.head () Per visualizzare le prime cinque righe

30861nuovo20blog-8287175

coda.dati () per visualizzare le ultime cinque righe

40174blog2-6133290

3. prospettiva statistica

Questo passaggio dovrebbe essere fatto per ottenere dettagli su vari dati statistici come la media, deviazione standard, mediano, valore massimo, valore minimo.

Frammento di codice Python

dati.descrivi ()

27711cattura1-1679038

4. Pulizia dei dati

Questo è il passaggio più importante in EDA che comporta la rimozione di righe / colonne duplicate, riempi le voci vuote con valori come media / mediana dei dati, rimuovere più valori, rimuovere le voci nulle

Controllo input nullo

Frammento di codice Python

data.IsNull (). sum da el número de valores perdidos para cada variabile

47799blog4-3722464

Rimuovere le voci nulle

Frammento di codice Python

data.dropna (asse = 0, al posto = vero) Se sono presenti voci nulle

Riempi i valori invece di input nulli (se è una funzione numerica)

I valori possono essere meschini, la mediana o qualsiasi numero intero

Frammento di codice Python

dati[“sepal_lunghezza”].riempire (valore = dati[“sepal_lunghezza”].Significare (), al posto = vero) se è presente un input nullo

Controllo duplicato

Frammento di codice Python

data.duplicato (). somma () restituisce il numero totale di voci duplicate

puoi personalizzarlo in base alle tue particolari esigenze per comunicare il messaggio desiderato

Frammento di codice Python

data.drop_duplicates (al posto = vero)

5. Visualizzazione dati

La visualizzazione dei dati è il metodo per convertire i dati grezzi in una forma visiva., come mappa o grafico, per rendere i dati più facili da capire ed estrarre informazioni utili..

L'obiettivo principale della visualizzazione dei dati è inserire grandi set di dati in una rappresentazione visiva.. È uno dei passaggi importanti e facili quando si tratta di scienza dei dati.

Puoi fare riferimento al blog qui sotto per maggiori dettagli sulla visualizzazione dei dati.

Sono disponibili vari tipi di analisi di visualizzazione:

un. Analisi invariate:

Questo mostra ogni osservazione / distribuzione dei dati su una singola variabile di dati.. Se puede mostrar con la ayuda de varios diagramas como Diagramma di dispersione, diagramma a linee, diagramma dell'istogramma (astratto), box plot, diagramma di violino, eccetera.

B. Analisi bivariata:

Le schermate di analisi bivariate vengono eseguite per rivelare la relazione tra due variabili di dati. Può anche essere mostrato con l'aiuto di grafici a dispersione, istogrammi, mappe di calore, box plot, diagrammi di violino, eccetera.

C. Analisi multivariabile:

Analisi multivariata, Come suggerisce il nome, vengono visualizzati per rivelare la relazione tra più di due variabili di dati.

Diagrammi a dispersione, istogrammi, box plot, i grafici fiddle possono essere utilizzati per l'analisi multivariata

diversi appezzamenti

Di seguito sono riportati alcuni dei grafici che possono essere implementati per l'analisi univariata, bivariato e multivariato

un. Grafico a dispersione

Frammento di codice Python

plt.figure (dimensione del fico = (17,9))
plt.titolo (‘Confronto tra specie diverse secondo la lunghezza e la larghezza del sapel’)
sns.scatterplot (dati['lunghezza_sepalo'],dati['larghezza_sepalo'], tono = dati['specie'], s = 50)

39544b2-5963817

Per analisi multivariate

Frammento di codice Python

sns.pairplot (dati, tonalità = "specie", altezza = 4)

71974bl4-3866710

B. Trama scatola

Box plot per vedere come è distribuita la caratteristica categoriale “Specie” con le altre quattro variabili di input

Frammento di codice Python

Fig, assi = plt.sottotrame (2, 2, dimensione del fico = (16,9))
sns.boxplot (y = “larghezza_petalo”, x = “specie”, dati = dati_iris, oriente = 'v', ascia = assi[0, 0])
sns.boxplot (y = “petalo_lunghezza”, x = “specie”, dati = dati_iris, oriente = 'v', ascia = assi[0, 1])
sns.boxplot (y = ”lunghezza sepalo”, x = “specie”, dati = dati_iris, oriente = 'v', ascia = assi[1, 0])
sns.boxplot (y = “larghezza_sepalo”, x = “specie”, dati = dati_iris, oriente = 'v', ascia = ejes[1, 1])
plt.mostra ()

61799scarica203-8139265

C. Cornice per violino

Più informativo rispetto al box plot e mostra la distribuzione completa dei dati.

Frammento di codice Python

Fig, assi = plt.sottotrame (2, 2, dimensione del fico = (16,10))
sns.violinplot (y = ”larghezza_petalo”, x = “specie”, dati = dati_iris, oriente = 'v', ascia = assi[0, 0], interno = 'quartile')
sns.violinplot (y = “petalo_lunghezza”, x = “specie”, dati = dati_iris, oriente = 'v', ascia = ejes[0, 1], interno = 'quartile')
sns.violinplot (y = ”lunghezza sepalo”, x = “specie”, dati = dati_iris, oriente = 'v', ascia = assi[1, 0], interno = 'quartile')
sns.violinplot (y = ”larghezza_sepalo”, x = “specie”, dati = dati_iris, oriente = 'v', ascia = assi[1, 1], interno = 'quartile')
plt.mostra ()

74915scarica205-2021386

D. istogrammi

Può essere utilizzato per visualizzare la funzione di densità di probabilità (PDF)

Frammento di codice Python

sns.FacetGrid (iris_data, tonalità = "specie", altezza = 5)
.carta geografica (sns.distplot, “larghezza_petalo”)
.aggiungi_leggenda ();

21544scarica207-8163074

Con questo chiudo questo blog..
Ciao a tutti, Namaste
Il mio nome è Pranshu Sharma e sono un appassionato di data science
Grazie mille per aver dedicato del tuo tempo prezioso a leggere questo blog.. Sentiti libero di segnalare eventuali errori (Dopotutto, sono un apprendista) e fornire i commenti corrispondenti o lasciare un commento.
Dhanyvaad !!
Feedback:
E-mail: [e-mail protetta]

Puoi fare riferimento al blog menzionato di seguito per familiarizzare con l'analisi esplorativa dei dati.

Il supporto mostrato in questo articolo non è di proprietà di DataPeaker e viene utilizzato a discrezione dell'autore.

Iscriviti alla nostra Newsletter

Non ti invieremo posta SPAM. Lo odiamo quanto te.