Cos'è l'asimmetria nelle statistiche??

Contenuti

Panoramica

  • L'asimmetria è un concetto statistico chiave che dovresti conoscere nei campi della scienza e dell'analisi dei dati..
  • Scopri cos'è l'asimmetria e perché è importante per te come professionista della scienza dei dati

introduzione

Il concetto di asimmetria è radicato nel nostro modo di pensare. Quando osserviamo una visualizzazione, la nostra mente discerne intuitivamente il modello su quel grafico.

Come già sai, L'India ha più di 50% della sua popolazione meno di 25 anni e più di 65% meno di 35 anni. Se tracci la distribuzione per età della popolazione dell'India, scoprirai che c'è una gobba sul lato sinistro del cronometraggio e il lato destro è relativamente piatto. In altre parole, possiamo dire che c'è un pregiudizio verso la fine, verità?

Quindi, anche se non hai letto dell'asimmetria come professionista della scienza dei dati o dell'analisi, hai sicuramente interagito con il concetto su una nota informale. Ed è in realtà un argomento abbastanza facile nelle statistiche e, tuttavia, molte persone lo leggono nella fretta di apprendere altri concetti di data science apparentemente complessi. Per me, Questo è un errore.

feature_image-220139

L'asimmetria è un concetto statistico fondamentale che tutti gli addetti alla scienza e all'analisi dei dati dovrebbero conoscere.. È qualcosa da cui non possiamo scappare. E sono sicuro che capirai entro la fine di questo articolo..

Qui, discuteremo il concetto di asimmetria nel modo più semplice possibile. Imparerai a conoscere l'asimmetria, le loro tipologie e la loro importanza nel campo della scienza dei dati. Quindi allacciati le cinture perché imparerai un concetto che apprezzerai durante la tua carriera nella scienza dei dati..

Nota: Ecco un paio di risorse per aiutarti ad approfondire il mondo delle statistiche per la scienza dei dati:

Sommario

  • Cos'è l'asimmetria??
  • Perché l'asimmetria è importante??
  • Cos'è una distribuzione normale??
  • Comprendere la distribuzione asimmetrica positiva
  • Comprendere la distribuzione asimmetrica negativa

Cos'è l'asimmetria??

L'asimmetria è la misura dell'asimmetria di una distribuzione di probabilità idealmente simmetrica ed è data da terzo momento standardizzato. Se sembra troppo complesso, Non preoccuparti! Lascia che lo scomponga per te.

In parole semplici, l'asimmetria è la misura di quanto la distribuzione di probabilità di una variabile casuale si discosta da distribuzione normale. Ora, potrei pensare: Perché sto parlando di distribuzione normale qui??

Bene, la distribuzione normale è la distribuzione di probabilità senza alcun bias. Puoi vedere l'immagine qui sotto che mostra una distribuzione simmetrica che è fondamentalmente una distribuzione normale e puoi vedere che è simmetrica su entrambi i lati della linea tratteggiata. A parte questo, ci sono due tipi di asimmetria:

  • Pregiudizio positivo
  • Inclinazione negativa
sk1-4508172

Titoli di coda: Wikipedia

La distribuzione di probabilità con la coda a destra è una distribuzione asimmetrica positiva e quella con la coda a sinistra è una distribuzione asimmetrica negativa.. Se trovi che le cifre sopra confondono, va bene. Lo capiremo più in dettaglio in seguito..

Prima di ciò, Capiamo perché l'inclinazione è un concetto così importante per te come professionista della scienza dei dati.

Perché l'asimmetria è importante??

Ora, sappiamo che l'asimmetria è la misura dell'asimmetria e i suoi tipi si distinguono per il lato su cui si trova la coda della distribuzione di probabilità. Ma, Perché è importante conoscere l'asimmetria dei dati?

Primo, i modelli lineari funzionano assumendo che la distribuzione della variabile indipendente e della variabile target siano simili. Perciò, conoscere l'asimmetria dei dati ci aiuta a creare modelli lineari migliori.

Al secondo posto, diamo un'occhiata alla seguente distribuzione. È la distribuzione della potenza delle automobili:

sk2-7118031

Puoi vedere chiaramente che la distribuzione di cui sopra è positivamente distorta. Ora, diciamo che vuoi usarlo come funzione per il modello che prevede le miglia per gallone (miglia per gallone) di una macchina.

Dal momento che i nostri dati sono distorti positivamente qui, significa che hai un numero maggiore di punti dati con valori bassi, vale a dire, auto con meno cavalli. Quindi, quando addestriamo il nostro modello con questi dati, funzionerà meglio nel prevedere le miglia per gallone di auto con potenza inferiore rispetto a quelle con potenza maggiore.

Cosa c'è di più, l'asimmetria ci dice la direzione di Valori atipici. Puoi vedere che la nostra distribuzione è positivamente distorta e la maggior parte dei valori anomali sono presenti sul lato destro della distribuzione..

Nota: L'asimmetria non ci dice il numero di valori anomali. Ci dice solo l'indirizzo.

Ora che sappiamo perché l'inclinazione è importante, capiamo le distribuzioni che vi ho mostrato prima.

Cos'è la distribuzione simmetrica? / normale?

sk3-9644395

Titoli di coda: Wikipedia

sì, torniamo di nuovo con la distribuzione normale. Viene utilizzato come riferimento per determinare l'asimmetria di una distribuzione. Come ho detto precedentemente, la distribuzione normale ideale è la distribuzione di probabilità quasi senza asimmetria. È quasi perfettamente simmetrico. A causa di ciò, il valore di asimmetria per una distribuzione normale è zero.

Ma, Perché è quasi perfettamente simmetrico e non assolutamente simmetrico??

Questo perchè, in realtà, nessun dato di parola reale ha una distribuzione perfettamente normale. Perciò, anche il valore dell'asimmetria non è esattamente zero; è quasi zero. Sebbene il valore zero sia usato come riferimento per determinare l'asimmetria di una distribuzione.

Puoi vedere nell'immagine sopra che la stessa linea rappresenta la media, mediana e modalità. È perché la media, la mediana e la moda di una distribuzione perfettamente normale sono uguali.

Fino ad ora, abbiamo capito l'asimmetria della distribuzione normale usando una probabilità o una distribuzione di frequenza. Ora, comprendiamolo in termini di box plot perché questo è il modo più comune di guardare una distribuzione nello spazio della scienza dei dati.

sk6-1881560

L'immagine sopra è un diagramma a scatola di distribuzione simmetrica. Noterai qui che la distanza tra Q1 e Q2 e Q2 e Q3 è uguale, vale a dire:

sk7-4653667

Ma ciò non è sufficiente per stabilire se una distribuzione è distorta o meno.. Diamo uno sguardo anche alla lunghezza dei baffi; se sono uguali, allora possiamo dire che la distribuzione è simmetrica, vale a dire, non è di parte.

Ora che abbiamo discusso l'asimmetria nella distribuzione normale, è tempo di conoscere i due tipi di asimmetria di cui abbiamo discusso in precedenza. Iniziamo con l'asimmetria positiva.

Comprendere la distribuzione asimmetrica positiva

sk4-6760864

Fonte: Wikipedia

Una distribuzione asimmetrica positiva è la distribuzione con la coda sul lato destro.. Il valore di asimmetria per una distribuzione asimmetrica positiva è maggiore di zero. Come avrai capito guardando la figura, il valore medio è il più grande, seguito dalla mediana e poi dalla modalità.

Quindi, perché sta succedendo?

Bene, la risposta è che l'asimmetria della distribuzione è a destra; rende la media maggiore della mediana e alla fine si sposta a destra. Cosa c'è di più, la moda si verifica alla frequenza più alta della distribuzione che si trova sul lato sinistro della mediana. Perciò, moda <mediano <media.

sk8-4791198

Nel box plot sopra, puoi vedere che Q2 è presente più vicino a Q1. Questo rappresenta una distribuzione positivamente distorta. In termini di quartili, può essere dato da:

sk9-4225069

In questo caso, è stato molto facile sapere se i dati sono distorti o meno. Ma, E se avessimo qualcosa del genere??

sk10-2273723

Qui, Q2-Q1 e Q3-Q2 sono uguali e, tuttavia, la distribuzione è positivamente distorta. I più attenti avranno notato che la lunghezza dei baffi di destra è maggiore di quella di sinistra. Da questa, possiamo concludere che i dati sono distorti positivamente.

Quindi, il primo passo è sempre quello di controllare l'uguaglianza di Q2-Q1 e Q3-Q2. Se è lo stesso, cerchiamo la lunghezza dei baffi.

Comprendere la distribuzione asimmetrica negativa

sk5-7632383

Fonte: Wikipedia

Come avrai già intuito, una distribuzione asimmetrica negativa è la distribuzione con la coda sul lato sinistro. Il valore di asimmetria per una distribuzione asimmetrica negativa è minore di zero. Puoi anche vedere nella figura sopra che il media <mediano <moda.

sk11-6047787

Nel box plot, la relazione tra i quartili per un'asimmetria negativa è data da:

sk12-1879096

Simile a quello che abbiamo fatto prima, se Q3-Q2 e Q2-Q1 sono uguali, poi cerchiamo la lunghezza dei baffi. E se la lunghezza dei baffi di sinistra è maggiore di quella di destra, allora possiamo dire che i dati sono distorti negativamente.

sk13-8221419

Come trasformiamo i dati distorti??

Poiché sai quanti dati distorti possono influenzare le capacità di previsione del nostro modello di apprendimento automatico, è meglio trasformare i dati distorti in dati normalmente distribuiti. Ecco alcuni dei modi in cui puoi trasformare i tuoi dati distorti:

  • Trasformazione del potere
  • Trasformazione dei record
  • Trasformazione esponenziale

Nota: La selezione della trasformazione dipende dalle caratteristiche statistiche dei dati.

Note finali

In questo articolo, copriamo il concetto di asimmetria, i suoi tipi e perché è importante nel campo della scienza dei dati. Si parla di asimmetria a livello concettuale, ma se vuoi approfondire, puoi esplorare la sua parte matematica come passaggio successivo.

Cosa c'è di più, Puoi leggere articoli su altri importanti argomenti statistici:

Connettiti con me nella sezione commenti qui sotto se hai domande.

Iscriviti alla nostra Newsletter

Non ti invieremo posta SPAM. Lo odiamo quanto te.