Distribuições de probabilidade contínua para ciência de dados

Compartilhar no Facebook
Compartilhar no Twitter
Compartilhar no LinkedIn
Compartilhar no telegrama
Compartilhar no Whatsapp

Conteúdo

Este artigo foi publicado como parte do Data Science Blogathon.

Introdução

Na postagem anterior, definimos as distribuições de probabilidade e discutimos brevemente as diferentes distribuições de probabilidade discretas. Neste post, continuaremos a aprender sobre distribuições de probabilidade por meio de distribuições de probabilidade contínuas.

Definição

Se você se lembra de nossa discussão anterior, variáveis ​​aleatórias contínuas podem assumir um número infinito de valores em um determinado intervalo. Por exemplo, no intervalo [2, 3] existem valores infinitos entre 2 e 3. Distribuições contínuas são definidas pelas funções de densidade de probabilidade (PDF) em vez de funções de massa de probabilidade. A probabilidade de que uma variável aleatória contínua seja igual a um valor exato é sempre zero. Probabilidades contínuas são definidas ao longo de um intervalo. Por exemplo, P (X = 3) = 0 mas P (2.99 <X <3.01) pode ser calculado integrando o PDF ao longo do intervalo [2.99, 3.01]

Lista de distribuições de probabilidade contínua

A seguir, analisamos as distribuições de probabilidade contínua mais usadas:

1. Distribuição uniforme contínua

A distribuição uniforme tem formas contínuas e discretas. Aqui, nós discutimos o continuum. Esta distribuição plota as variáveis ​​aleatórias cujos valores são igualmente prováveis ​​de ocorrer. O exemplo mais comum é lançar dados justos. Aqui, a 6 os resultados têm a mesma probabilidade de ocorrer. Por tanto, a probabilidade é constante.

Considere o exemplo onde a = 10 e b = 20, o layout é assim:

70988uniform_graph-2106269

O PDF é fornecido por,

11733uniform_pmf-2459778

onde a é o valor mínimo eb é o valor máximo.

2. Distribuição normal

Esta é a distribuição mais discutida e encontrada com mais frequência no mundo real.. Muitas distribuições contínuas geralmente alcançam uma distribuição normal dada uma amostra grande o suficiente. Isso tem dois parâmetros, a saber, o desvio padrão e a média.

Esta distribuição tem muitas propriedades interessantes. A média tem a maior probabilidade e todos os outros valores são igualmente distribuídos em ambos os lados da média simetricamente. A distribuição normal padrão é um caso especial onde a média é 0 e o desvio padrão de 1.

26971download-5747377

Também segue a fórmula empírica de que o 68% dos valores estão em 1 desvio padrão de distância, a 95% por cento deles são 2 desvios padrão de distância e o 99,7% são para 3 desvios padrão da média. Esta propriedade é muito útil ao projetar testes de hipótese (https://www.statisticshowto.com/probability-and-statistics/hypothesis-testing/).

O PDF é fornecido por,

52226normal_pmf-2077926

onde μ é a média da variável aleatória X e σ é o desvio padrão.

3. Distribuição normal logarítmica

Esta distribuição é usada para representar graficamente as variáveis ​​aleatórias cujos valores de log seguem uma distribuição normal.. Considere as variáveis ​​aleatórias X e Y. Y = ln (X) é a variável que está representada nesta distribuição, onde ln denota o logaritmo natural dos valores de X.

15552lognormal_graph-9874936

O PDF é fornecido por,

59025lognormal_pmf-8145975

onde μ é a média de Y e σ é o desvio padrão de Y.

4. Distribuição t de aluno

A distribuição t de Student é semelhante à distribuição normal. A diferença é que as caudas da distribuição são mais grossas. Usado quando o tamanho da amostra é pequeno e a variação da população é desconhecida. Esta distribuição é definida pelos graus de liberdade (p) que são calculados como o tamanho da amostra menos 1 (n – 1).

Conforme o tamanho da amostra aumenta, graus de liberdade aumentam, a distribuição t se aproxima da distribuição normal e as caudas tornam-se mais estreitas e a curva se aproxima da média. Esta distribuição é usada para testar estimativas da média da população quando o tamanho da amostra é menor que 30 e a variação da população é desconhecida. Variância / o desvio padrão da amostra é usado para calcular o valor t.

72536t_graph-4275377

O PDF é fornecido por,

49862t_value_distribution-3124713

onde p são os graus de liberdade e Γ é a função gama. Veja este link para uma breve descrição da função gama.

A estatística t usada no teste de hipótese é calculada da seguinte forma,

19058valor t-3082773

onde x̄ é a média da amostra, μ é a média da população es é a variância da amostra.

5. Distribuição qui-quadrado

Esta distribuição é igual à soma dos quadrados de p variáveis ​​aleatórias normais. p é o número de graus de liberdade. Como a distribuição t, conforme os graus de liberdade aumentam, a distribuição se aproxima gradualmente da distribuição normal. Abaixo está uma distribuição qui-quadrado com três graus de liberdade.

76862chi_square-6722992

O PDF é fornecido por,

35020qui-quadrado-3987211

onde p são os graus de liberdade e Γ é a função gama.

O valor do qui-quadrado é calculado da seguinte forma:

79033valor qui-quadrado-1100288

onde o é o valor observado e E representa o valor esperado. Isso é usado em testes de hipótese para fazer inferências sobre a variância da população das distribuições normais..

6. Distribuição exponencial

Lembre-se da distribuição de probabilidade discreta que discutimos na postagem de Probabilidade Discreta. Na distribuição de Poisson, tomamos o exemplo das chamadas recebidas pelo centro de atendimento ao cliente. Naquele exemplo, consideramos o número médio de chamadas por hora. Agora, nesta distribuição, o tempo entre chamadas sucessivas é explicado.

62946exponencial-8282674

A distribuição exponencial pode ser vista como o inverso da distribuição de Poisson. Os eventos em consideração são independentes uns dos outros.

O PDF é fornecido por,

18189exponentialpmf-2512169

onde λ é o parâmetro da taxa. λ = 1 / (tempo médio entre eventos).

Para concluir, discutimos muito brevemente as diferentes distribuições de probabilidade contínua neste artigo. Sinta-se à vontade para adicionar comentários ou sugestões abaixo.

Sobre mim

Soy Priyanka Madiraju, um ex-engenheiro de software trabalhando na transição para a ciência de dados. Eu sou um estudante de mestrado em ciência de dados. Sinta-se à vontade para se conectar comigo em https://www.linkedin.com/in/priyanka-madiraju

A mídia mostrada neste artigo não é propriedade da DataPeaker e é usada a critério do autor.

Assine a nossa newsletter

Nós não enviaremos SPAM para você. Nós odiamos isso tanto quanto você.