Distribuzioni di probabilità continue per la scienza dei dati

Contenuti

Questo articolo è stato pubblicato nell'ambito del Blogathon sulla scienza dei dati.

introduzione

Nel post precedente, definiamo le distribuzioni di probabilità e discutiamo brevemente le diverse distribuzioni di probabilità discrete. In questo post, continueremo a conoscere le distribuzioni di probabilità attraverso distribuzioni di probabilità continue.

Definizione

Se ricordi la nostra discussione precedente, le variabili casuali continue possono assumere un numero infinito di valori in un dato intervallo. Ad esempio, nell'intervallo [2, 3] ci sono infiniti valori tra 2 e 3. Le distribuzioni continue sono definite dalle funzioni di densità di probabilità (PDF) invece delle funzioni di massa di probabilità. La probabilità che una variabile casuale continua sia uguale a un valore esatto è sempre zero. Le probabilità continue sono definite su un intervallo. Ad esempio, P (X = 3) = 0 ma P (2.99 <X <3.01) può essere calcolato integrando il PDF nell'intervallo [2.99, 3.01]

Elenco delle distribuzioni di probabilità continue

Prossimo, analizziamo le distribuzioni di probabilità continue più utilizzate:

1. Distribuzione uniforme continua

La distribuzione uniforme ha forme sia continue che discrete. Qui, discutiamo il continuum. Questa distribuzione traccia le variabili casuali i cui valori hanno la stessa probabilità di verificarsi. L'esempio più comune è il lancio di un dado equilibrato. Qui, il 6 i risultati hanno la stessa probabilità di verificarsi. Perciò, la probabilità è costante.

Considera l'esempio in cui a = 10 e b = 20, il layout è simile a questo:

70988uniform_graph-2106269

Il PDF è fornito da,

11733uniform_pmf-2459778

dove a è il valore minimo e b è il valore massimo.

2. Distribuzione normale

Questa è la distribuzione più discussa e più frequente nel mondo reale.. Molte distribuzioni continue spesso raggiungono una distribuzione normale dato un campione sufficientemente grande. Questo ha due parametri, vale a dire, la deviazione standard e la media.

Questa distribuzione ha molte proprietà interessanti. La media ha la più alta probabilità e tutti gli altri valori sono equamente distribuiti su entrambi i lati della media simmetricamente. La distribuzione normale standard è un caso speciale in cui la media è 0 e la deviazione standard di 1.

26971scarica-5747377

Segue anche la formula empirica che il 68% dei valori sono a 1 distanza deviazione standard, il 95% per cento di loro sono 2 le deviazioni standard della distanza e il 99,7% sono per 3 deviazioni standard dalla media. Questa proprietà è molto utile quando si progettano test di ipotesi (https://www.statisticshowto.com/probability-and-statistics/hypothesis-testing/).

Il PDF è fornito da,

52226normal_pmf-2077926

dove μ è la media della variabile casuale X e è la deviazione standard.

3. Distribuzione normale logaritmica

Questa distribuzione viene utilizzata per rappresentare graficamente le variabili casuali i cui valori di registro seguono una distribuzione normale.. Considera le variabili casuali X e Y. Y = ln (X) è la variabile rappresentata in questa distribuzione, dove ln indica il logaritmo naturale dei valori di X.

15552lognormal_graph-9874936

Il PDF è fornito da,

59025lognormal_pmf-8145975

dove μ è la media di Y e σ è la deviazione standard di Y.

4. Distribuzione t di Student

La distribuzione t di Student è simile alla distribuzione normale. La differenza è che le code della distribuzione sono più spesse. Utilizzato quando la dimensione del campione è piccola e la varianza della popolazione è sconosciuta. Questa distribuzione è definita dai gradi di libertà (P) che sono calcolati come la dimensione del campione meno 1 (n – 1).

All'aumentare della dimensione del campione, aumento dei gradi di libertà, la distribuzione t si avvicina alla distribuzione normale e le code si restringono e la curva si avvicina alla media. Questa distribuzione viene utilizzata per verificare le stime della media della popolazione quando la dimensione del campione è inferiore a 30 e la varianza della popolazione è sconosciuta. Varianza / la deviazione standard del campione viene utilizzata per calcolare il valore t.

72536t_graph-4275377

Il PDF è fornito da,

49862t_value_distribution-3124713

dove p sono i gradi di libertà e è la funzione gamma. Vedi questo link per una breve descrizione della funzione gamma.

La statistica t utilizzata nel test di ipotesi viene calcolata come segue,

19058valore-t-3082773

dove x̄ è la media campionaria, μ è la media della popolazione e s è la varianza campionaria.

5. Distribuzione chi-quadrato

Questa distribuzione è uguale alla somma dei quadrati di p normali variabili casuali. p è il numero di gradi di libertà. Come la distribuzione t, all'aumentare dei gradi di libertà, la distribuzione si avvicina gradualmente alla distribuzione normale. Di seguito è riportata una distribuzione chi-quadrato con tre gradi di libertà.

76862chi_square-6722992

Il PDF è fornito da,

35020chi-quadrato-3987211

dove p sono i gradi di libertà e è la funzione gamma.

Il valore del chi quadrato viene calcolato come segue:

79033valore-chi-quadrato-1100288

dove o è il valore osservato ed E rappresenta il valore atteso. Questo è usato nei test di ipotesi per trarre inferenze sulla varianza della popolazione delle distribuzioni normali..

6. Distribuzione esponenziale

Ricorda la distribuzione di probabilità discreta di cui abbiamo discusso nel post sulla probabilità discreta. Nella distribuzione di Poisson, prendiamo l'esempio delle chiamate ricevute dal centro assistenza clienti. In quell'esempio, consideriamo il numero medio di chiamate orarie. Ora, in questa distribuzione, viene spiegato il tempo tra le chiamate successive.

62946esponenziale-8282674

La distribuzione esponenziale può essere vista come un inverso della distribuzione di Poisson. Gli eventi in esame sono indipendenti l'uno dall'altro.

Il PDF è fornito da,

18189esponenzialepmf-2512169

dove è il parametro della velocità. = 1 / (tempo medio tra gli eventi).

Completare, abbiamo discusso molto brevemente diverse distribuzioni di probabilità continue in questo post. Sentiti libero di aggiungere commenti o suggerimenti qui sotto.

A proposito di me

Soy Priyanka Madiraju, un ex ingegnere del software che lavora alla transizione alla scienza dei dati. Sono uno studente di Master in Data Science. Sentiti libero di connetterti con me su https://www.linkedin.com/in/priyanka-madiraju

Il supporto mostrato in questo articolo non è di proprietà di DataPeaker e viene utilizzato a discrezione dell'autore.

Iscriviti alla nostra Newsletter

Non ti invieremo posta SPAM. Lo odiamo quanto te.