Este artigo foi publicado como parte do Data Science Blogathon.
Introdução
Na postagem anterior, definimos as distribuições de probabilidade e discutimos brevemente as diferentes distribuições de probabilidade discretas. Neste post, continuaremos a aprender sobre distribuições de probabilidade por meio de distribuições de probabilidade contínuas.
Definição
Se você se lembra de nossa discussão anterior, variáveis aleatórias contínuas podem assumir um número infinito de valores em um determinado intervalo. Por exemplo, no intervalo [2, 3] existem valores infinitos entre 2 e 3. Distribuições contínuas são definidas pelas funções de densidade de probabilidade (PDF) em vez de funções de massa de probabilidade. A probabilidade de que uma variável aleatória contínua seja igual a um valor exato é sempre zero. Probabilidades contínuas são definidas ao longo de um intervalo. Por exemplo, P (X = 3) = 0 mas P (2.99 <X <3.01) pode ser calculado integrando o PDF ao longo do intervalo [2.99, 3.01]
Lista de distribuições de probabilidade contínua
A seguir, analisamos as distribuições de probabilidade contínua mais usadas:
1. Distribuição uniforme contínua
A distribuição uniforme tem formas contínuas e discretas. Aqui, nós discutimos o continuum. Esta distribuição plota as variáveis aleatórias cujos valores são igualmente prováveis de ocorrer. O exemplo mais comum é lançar dados justos. Aqui, a 6 os resultados têm a mesma probabilidade de ocorrer. Por tanto, a probabilidade é constante.
Considere o exemplo onde a = 10 e b = 20, o layout é assim:
O PDF é fornecido por,
onde a é o valor mínimo eb é o valor máximo.
2. Distribuição normal
Esta é a distribuição mais discutida e encontrada com mais frequência no mundo real.. Muitas distribuições contínuas geralmente alcançam uma distribuição normal dada uma amostra grande o suficiente. Isso tem dois parâmetros, a saber, o desvio padrão e a média.
Esta distribuição tem muitas propriedades interessantes. A média tem a maior probabilidade e todos os outros valores são igualmente distribuídos em ambos os lados da média simetricamente. A distribuição normal padrão é um caso especial onde a média é 0 e o desvio padrão de 1.
Também segue a fórmula empírica de que o 68% dos valores estão em 1 desvio padrão de distância, a 95% por cento deles são 2 desvios padrão de distância e o 99,7% são para 3 desvios padrão da média. Esta propriedade é muito útil ao projetar testes de hipótese (https://www.statisticshowto.com/probability-and-statistics/hypothesis-testing/).
O PDF é fornecido por,
onde μ é a média da variável aleatória X e σ é o desvio padrão.
3. Distribuição normal logarítmica
Esta distribuição é usada para representar graficamente as variáveis aleatórias cujos valores de log seguem uma distribuição normal.. Considere as variáveis aleatórias X e Y. Y = ln (X) é a variável que está representada nesta distribuição, onde ln denota o logaritmo natural dos valores de X.
O PDF é fornecido por,
onde μ é a média de Y e σ é o desvio padrão de Y.
4. Distribuição t de aluno
A distribuição t de Student é semelhante à distribuição normal. A diferença é que as caudas da distribuição são mais grossas. Usado quando o tamanho da amostra é pequeno e a variação da população é desconhecida. Esta distribuição é definida pelos graus de liberdade (p) que são calculados como o tamanho da amostra menos 1 (n – 1).
Conforme o tamanho da amostra aumenta, graus de liberdade aumentam, a distribuição t se aproxima da distribuição normal e as caudas tornam-se mais estreitas e a curva se aproxima da média. Esta distribuição é usada para testar estimativas da média da população quando o tamanho da amostra é menor que 30 e a variação da população é desconhecida. Variância / o desvio padrão da amostra é usado para calcular o valor t.
O PDF é fornecido por,
onde p são os graus de liberdade e Γ é a função gama. Veja este link para uma breve descrição da função gama.
A estatística t usada no teste de hipótese é calculada da seguinte forma,
onde x̄ é a média da amostra, μ é a média da população es é a variância da amostra.
5. Distribuição qui-quadrado
Esta distribuição é igual à soma dos quadrados de p variáveis aleatórias normais. p é o número de graus de liberdade. Como a distribuição t, conforme os graus de liberdade aumentam, a distribuição se aproxima gradualmente da distribuição normal. Abaixo está uma distribuição qui-quadrado com três graus de liberdade.
O PDF é fornecido por,
onde p são os graus de liberdade e Γ é a função gama.
O valor do qui-quadrado é calculado da seguinte forma:
onde o é o valor observado e E representa o valor esperado. Isso é usado em testes de hipótese para fazer inferências sobre a variância da população das distribuições normais..
6. Distribuição exponencial
Lembre-se da distribuição de probabilidade discreta que discutimos na postagem de Probabilidade Discreta. Na distribuição de Poisson, tomamos o exemplo das chamadas recebidas pelo centro de atendimento ao cliente. Naquele exemplo, consideramos o número médio de chamadas por hora. Agora, nesta distribuição, o tempo entre chamadas sucessivas é explicado.
A distribuição exponencial pode ser vista como o inverso da distribuição de Poisson. Os eventos em consideração são independentes uns dos outros.
O PDF é fornecido por,
onde λ é o parâmetro da taxa. λ = 1 / (tempo médio entre eventos).
Para concluir, discutimos muito brevemente as diferentes distribuições de probabilidade contínua neste artigo. Sinta-se à vontade para adicionar comentários ou sugestões abaixo.
Sobre mim
Soy Priyanka Madiraju, um ex-engenheiro de software trabalhando na transição para a ciência de dados. Eu sou um estudante de mestrado em ciência de dados. Sinta-se à vontade para se conectar comigo em https://www.linkedin.com/in/priyanka-madiraju
A mídia mostrada neste artigo não é propriedade da DataPeaker e é usada a critério do autor.