Questo articolo è stato pubblicato nell'ambito del Blogathon sulla scienza dei dati.
introduzione
Nel post precedente, definiamo le distribuzioni di probabilità e discutiamo brevemente le diverse distribuzioni di probabilità discrete. In questo post, continueremo a conoscere le distribuzioni di probabilità attraverso distribuzioni di probabilità continue.
Definizione
Se ricordi la nostra discussione precedente, le variabili casuali continue possono assumere un numero infinito di valori in un dato intervallo. Ad esempio, nell'intervallo [2, 3] ci sono infiniti valori tra 2 e 3. Le distribuzioni continue sono definite dalle funzioni di densità di probabilità (PDF) invece delle funzioni di massa di probabilità. La probabilità che una variabile casuale continua sia uguale a un valore esatto è sempre zero. Le probabilità continue sono definite su un intervallo. Ad esempio, P (X = 3) = 0 ma P (2.99 <X <3.01) può essere calcolato integrando il PDF nell'intervallo [2.99, 3.01]
Elenco delle distribuzioni di probabilità continue
Prossimo, analizziamo le distribuzioni di probabilità continue più utilizzate:
1. Distribuzione uniforme continua
La distribuzione uniforme ha forme sia continue che discrete. Qui, discutiamo il continuum. Questa distribuzione traccia le variabili casuali i cui valori hanno la stessa probabilità di verificarsi. L'esempio più comune è il lancio di un dado equilibrato. Qui, il 6 i risultati hanno la stessa probabilità di verificarsi. Perciò, la probabilità è costante.
Considera l'esempio in cui a = 10 e b = 20, il layout è simile a questo:
Il PDF è fornito da,
dove a è il valore minimo e b è il valore massimo.
2. Distribuzione normale
Questa è la distribuzione più discussa e più frequente nel mondo reale.. Molte distribuzioni continue spesso raggiungono una distribuzione normale dato un campione sufficientemente grande. Questo ha due parametri, vale a dire, la deviazione standard e la media.
Questa distribuzione ha molte proprietà interessanti. La media ha la più alta probabilità e tutti gli altri valori sono equamente distribuiti su entrambi i lati della media simmetricamente. La distribuzione normale standard è un caso speciale in cui la media è 0 e la deviazione standard di 1.
Segue anche la formula empirica che il 68% dei valori sono a 1 distanza deviazione standard, il 95% per cento di loro sono 2 le deviazioni standard della distanza e il 99,7% sono per 3 deviazioni standard dalla media. Questa proprietà è molto utile quando si progettano test di ipotesi (https://www.statisticshowto.com/probability-and-statistics/hypothesis-testing/).
Il PDF è fornito da,
dove μ è la media della variabile casuale X e è la deviazione standard.
3. Distribuzione normale logaritmica
Questa distribuzione viene utilizzata per rappresentare graficamente le variabili casuali i cui valori di registro seguono una distribuzione normale.. Considera le variabili casuali X e Y. Y = ln (X) è la variabile rappresentata in questa distribuzione, dove ln indica il logaritmo naturale dei valori di X.
Il PDF è fornito da,
dove μ è la media di Y e σ è la deviazione standard di Y.
4. Distribuzione t di Student
La distribuzione t di Student è simile alla distribuzione normale. La differenza è che le code della distribuzione sono più spesse. Utilizzato quando la dimensione del campione è piccola e la varianza della popolazione è sconosciuta. Questa distribuzione è definita dai gradi di libertà (P) che sono calcolati come la dimensione del campione meno 1 (n – 1).
All'aumentare della dimensione del campione, aumento dei gradi di libertà, la distribuzione t si avvicina alla distribuzione normale e le code si restringono e la curva si avvicina alla media. Questa distribuzione viene utilizzata per verificare le stime della media della popolazione quando la dimensione del campione è inferiore a 30 e la varianza della popolazione è sconosciuta. Varianza / la deviazione standard del campione viene utilizzata per calcolare il valore t.
Il PDF è fornito da,
dove p sono i gradi di libertà e è la funzione gamma. Vedi questo link per una breve descrizione della funzione gamma.
La statistica t utilizzata nel test di ipotesi viene calcolata come segue,
dove x̄ è la media campionaria, μ è la media della popolazione e s è la varianza campionaria.
5. Distribuzione chi-quadrato
Questa distribuzione è uguale alla somma dei quadrati di p normali variabili casuali. p è il numero di gradi di libertà. Come la distribuzione t, all'aumentare dei gradi di libertà, la distribuzione si avvicina gradualmente alla distribuzione normale. Di seguito è riportata una distribuzione chi-quadrato con tre gradi di libertà.
Il PDF è fornito da,
dove p sono i gradi di libertà e è la funzione gamma.
Il valore del chi quadrato viene calcolato come segue:
dove o è il valore osservato ed E rappresenta il valore atteso. Questo è usato nei test di ipotesi per trarre inferenze sulla varianza della popolazione delle distribuzioni normali..
6. Distribuzione esponenziale
Ricorda la distribuzione di probabilità discreta di cui abbiamo discusso nel post sulla probabilità discreta. Nella distribuzione di Poisson, prendiamo l'esempio delle chiamate ricevute dal centro assistenza clienti. In quell'esempio, consideriamo il numero medio di chiamate orarie. Ora, in questa distribuzione, viene spiegato il tempo tra le chiamate successive.
La distribuzione esponenziale può essere vista come un inverso della distribuzione di Poisson. Gli eventi in esame sono indipendenti l'uno dall'altro.
Il PDF è fornito da,
dove è il parametro della velocità. = 1 / (tempo medio tra gli eventi).
Completare, abbiamo discusso molto brevemente diverse distribuzioni di probabilità continue in questo post. Sentiti libero di aggiungere commenti o suggerimenti qui sotto.
A proposito di me
Soy Priyanka Madiraju, un ex ingegnere del software che lavora alla transizione alla scienza dei dati. Sono uno studente di Master in Data Science. Sentiti libero di connetterti con me su https://www.linkedin.com/in/priyanka-madiraju
Il supporto mostrato in questo articolo non è di proprietà di DataPeaker e viene utilizzato a discrezione dell'autore.