Distribuições de probabilidade contínua para ciência de dados

Conteúdo

Este artigo foi publicado como parte do Data Science Blogathon.

Introdução

Na postagem anterior, definimos as distribuições de probabilidade e discutimos brevemente as diferentes distribuições de probabilidade discretas. Neste post, continuaremos a aprender sobre distribuições de probabilidade por meio de distribuições de probabilidade contínuas.

Definição

Se você se lembra de nossa discussão anterior, variáveis ​​aleatórias contínuas podem assumir um número infinito de valores em um determinado intervalo. Por exemplo, no intervalo [2, 3] existem valores infinitos entre 2 e 3. Distribuições contínuas são definidas pelas funções de densidade de probabilidade (PDF) em vez de funções de massa de probabilidade. A probabilidade de que uma variável aleatória contínua seja igual a um valor exato é sempre zero. Probabilidades contínuas são definidas ao longo de um intervalo. Por exemplo, P (X = 3) = 0 mas P (2.99 <X <3.01) pode ser calculado integrando o PDF ao longo do intervalo [2.99, 3.01]

Lista de distribuições de probabilidade contínua

A seguir, analisamos as distribuições de probabilidade contínua mais usadas:

1. Distribuição uniforme contínua

A distribuição uniforme tem formas contínuas e discretas. Aqui, nós discutimos o continuum. Esta distribuição plota as variáveis ​​aleatórias cujos valores são igualmente prováveis ​​de ocorrer. O exemplo mais comum é lançar dados justos. Aqui, a 6 os resultados têm a mesma probabilidade de ocorrer. Por tanto, a probabilidade é constante.

Considere o exemplo onde a = 10 e b = 20, o layout é assim:

70988uniform_graph-2106269

O PDF é fornecido por,

11733uniform_pmf-2459778

onde a é o valor mínimo eb é o valor máximo.

2. Distribuição normal

Esta é a distribuição mais discutida e encontrada com mais frequência no mundo real.. Muitas distribuições contínuas geralmente alcançam uma distribuição normal dada uma amostra grande o suficiente. Isso tem dois parâmetros, a saber, o desvio padrão e a média.

Esta distribuição tem muitas propriedades interessantes. A média tem a maior probabilidade e todos os outros valores são igualmente distribuídos em ambos os lados da média simetricamente. A distribuição normal padrão é um caso especial onde a média é 0 e o desvio padrão de 1.

26971download-5747377

Também segue a fórmula empírica de que o 68% dos valores estão em 1 desvio padrão de distância, a 95% por cento deles são 2 desvios padrão de distância e o 99,7% são para 3 desvios padrão da média. Esta propriedade é muito útil ao projetar testes de hipótese (https://www.statisticshowto.com/probability-and-statistics/hypothesis-testing/).

O PDF é fornecido por,

52226normal_pmf-2077926

onde μ é a média da variável aleatória X e σ é o desvio padrão.

3. Distribuição normal logarítmica

Esta distribuição é usada para representar graficamente as variáveis ​​aleatórias cujos valores de log seguem uma distribuição normal.. Considere as variáveis ​​aleatórias X e Y. Y = ln (X) é a variável que está representada nesta distribuição, onde ln denota o logaritmo natural dos valores de X.

15552lognormal_graph-9874936

O PDF é fornecido por,

59025lognormal_pmf-8145975

onde μ é a média de Y e σ é o desvio padrão de Y.

4. Distribuição t de aluno

A distribuição t de Student é semelhante à distribuição normal. A diferença é que as caudas da distribuição são mais grossas. Usado quando o tamanho da amostra é pequeno e a variação da população é desconhecida. Esta distribuição é definida pelos graus de liberdade (p) que são calculados como o tamanho da amostra menos 1 (n – 1).

Conforme o tamanho da amostra aumenta, graus de liberdade aumentam, a distribuição t se aproxima da distribuição normal e as caudas tornam-se mais estreitas e a curva se aproxima da média. Esta distribuição é usada para testar estimativas da média da população quando o tamanho da amostra é menor que 30 e a variação da população é desconhecida. Variância / o desvio padrão da amostra é usado para calcular o valor t.

72536t_graph-4275377

O PDF é fornecido por,

49862t_value_distribution-3124713

onde p são os graus de liberdade e Γ é a função gama. Veja este link para uma breve descrição da função gama.

A estatística t usada no teste de hipótese é calculada da seguinte forma,

19058valor t-3082773

onde x̄ é a média da amostra, μ é a média da população es é a variância da amostra.

5. Distribuição qui-quadrado

Esta distribuição é igual à soma dos quadrados de p variáveis ​​aleatórias normais. p é o número de graus de liberdade. Como a distribuição t, conforme os graus de liberdade aumentam, a distribuição se aproxima gradualmente da distribuição normal. Abaixo está uma distribuição qui-quadrado com três graus de liberdade.

76862chi_square-6722992

O PDF é fornecido por,

35020qui-quadrado-3987211

onde p são os graus de liberdade e Γ é a função gama.

O valor do qui-quadrado é calculado da seguinte forma:

79033valor qui-quadrado-1100288

onde o é o valor observado e E representa o valor esperado. Isso é usado em testes de hipótese para fazer inferências sobre a variância da população das distribuições normais..

6. Distribuição exponencial

Lembre-se da distribuição de probabilidade discreta que discutimos na postagem de Probabilidade Discreta. Na distribuição de Poisson, tomamos o exemplo das chamadas recebidas pelo centro de atendimento ao cliente. Naquele exemplo, consideramos o número médio de chamadas por hora. Agora, nesta distribuição, o tempo entre chamadas sucessivas é explicado.

62946exponencial-8282674

A distribuição exponencial pode ser vista como o inverso da distribuição de Poisson. Os eventos em consideração são independentes uns dos outros.

O PDF é fornecido por,

18189exponentialpmf-2512169

onde λ é o parâmetro da taxa. λ = 1 / (tempo médio entre eventos).

Para concluir, discutimos muito brevemente as diferentes distribuições de probabilidade contínua neste artigo. Sinta-se à vontade para adicionar comentários ou sugestões abaixo.

Sobre mim

Soy Priyanka Madiraju, um ex-engenheiro de software trabalhando na transição para a ciência de dados. Eu sou um estudante de mestrado em ciência de dados. Sinta-se à vontade para se conectar comigo em https://www.linkedin.com/in/priyanka-madiraju

A mídia mostrada neste artigo não é propriedade da DataPeaker e é usada a critério do autor.

Assine a nossa newsletter

Nós não enviaremos SPAM para você. Nós odiamos isso tanto quanto você.