Testando hipóteses | Teste de hipóteses para iniciantes em ciência de dados

Conteúdo

Este artigo foi publicado como parte do Data Science Blogathon.

Introdução

untitled-design-4-8851911

Antes de ir para isso, vamos saber o que exatamente significa hipótese:

“A hipótese é descrita como uma solução recomendada para um incidente indefinível que não se encaixa na teoria atual”.

A definição real de teste de hipótese é através da qual um analista testa uma suposição a respeito de um parâmetro populacional. A metodologia mantida pelo analista depende da natureza dos dados usados ​​e do motivo da análise..

problema-5283606

Testando hipóteses

Passos para realizar o teste de hipótese:

  1. Defina hipóteses nulas e alternativas

  2. Navegar nos dados, verificar suposições

  3. Calcular estatística de teste

  4. Determine o valor p correspondente

  5. Tome uma decisão sobre a hipótese nula.

Para realizar todas essas etapas, vamos dar um exemplo para entender facilmente.

Problema: Levando em consideração os adultos italianos da faixa etária de 18 uma 30 anos morando na italia, Os homens têm um índice de massa corporal (IMC) significa significativamente mais alto do que as mulheres?

Aqui a população é de adultos italianos (18-30) na Itália e o parâmetro de interesse é o índice de massa corporal (IMC)

Paso 1: definir hipótese

  • Nulo: Não há diferença no IMC médio
    H (0): você1= U2 [U1 representa o IMC médio da população para homens e U2 representa o IMC médio da população para mulheres]
    Aqui H (0) diz que eles são iguais um ao outro
  • Alternativa: há uma diferença significativa no IMC médio
    H (UMA): U1=U2 [U1 representa o IMC médio da população para homens e U2 representa o IMC médio da população para mulheres]

    Aqui H (UMA) diz que eles não são iguais um ao outro

  • Nível de significância = 5%

Paso 2: examine os dados e verifique as suposições

Nesta etapa, os dados foram filtrados para incluir apenas adultos italianos que estavam entre 18 e 30 anos. Depois disso, precisamos fazer alguns cálculos estatísticos como a média, o mínimo, o máximo, o desvio padrão e o tamanho da amostra para homens e mulheres.

Algumas das suposições que devemos verificar são as seguintes:

  • As amostras são consideradas amostras aleatórias simples
  • As amostras são independentes umas das outras
  • Ambas as populações de resposta são aproximadamente normais ou os tamanhos das amostras são grandes o suficiente.

Paso 3: Calcular estatística de teste:

A estatística de teste é uma medida de quão longe nossa estatística de amostra está de nosso parâmetro de população hipotético., em termos de erros padrão estimados.

  • Z = melhor estimativa – valor nulo / erro padrão estimado
  • A melhor estimativa é a diferença entre a média da amostra estatística masculina e feminina
  • O valor nulo é o valor nulo hipotético
  • O erro padrão estimado para duas médias pode mudar dependendo da abordagem que vamos usar..
  • As duas abordagens que você pode usar são a abordagem agrupada e a abordagem não agrupada..
  • A abordagem combinada é que a variância de duas populações é considerada igual.
  • A abordagem não agrupada consiste em eliminar a suposição de variâncias iguais.

Paso 4: Determinação do valor P:

O valor p é determinado assumindo que a hipótese nula é verdadeira, é a probabilidade de observar uma estatística de teste de um valor (COM) ou mais extremo.

Então, vamos calcular essa probabilidade usando a distribuição Z, onde dF = n1+ n2-2

precisamos verificar ambos os lados, uma vez que é uma hipótese alternativa de dois lados porque nossa alternativa também não é a mesma. portanto, temos que verificar as caudas superior e inferior de nossa distribuição.

O gráfico de distribuição se parece com o mostrado abaixo com seu tamanho de amostra e graus de liberdade correspondentes:

28679valor-p-8901206

Curva de distribuição

No gráfico acima, podemos ver o nosso valor de estatística de teste positivo e o valor de estatística de teste abaixo do negativo. Isso significa que se a diferença no IMC médio da população entre homens e mulheres fosse realmente zero, então, se essa hipótese nula fosse verdadeira, então é bastante provável observar uma diferença nas médias da amostra do valor estatístico do teste ou algo mais extremo. Há quase um 20 porcentagem de chance de ver isso porque este valor é tão grande, iremos em frente e não rejeitaremos o valor nulo.

Paso 5: tomar uma decisão

Se o valor P for maior que o nível de significância, o que significa que há evidências fracas contra o valor nulo. Por tanto, não rejeitamos a hipótese nula.

Então, em resumo, testes de hipótese são usados ​​para testar teorias sobre um parâmetro de interesse. Aqui, esse parâmetro é a diferença nas médias da população. As etapas básicas para realizar este teste de hipótese. Primeiro, vamos definir nossas hipóteses. Mais tarde, vamos examinar nossos dados enquanto verificamos nossas suposições e calculamos nossa estatística de teste. Com esta estatística de teste, vamos determinar nosso valor p correspondente e, Finalmente, vamos tomar uma decisão com base neste valor.

As suposições para o teste t de duas amostras para as médias populacionais são que precisamos que ambos os conjuntos de dados sejam duas amostras aleatórias simples e sejam independentes um do outro.. Precisamos garantir que ambas as populações de resposta sejam normalmente distribuídas. Pelo contrário, precisamos ter certeza de que temos pelo menos um grande tamanho de amostra para que possamos aplicar o teorema do limite central. Se nossas variações populacionais são iguais ou não, também é crucial determinar se usamos uma abordagem agrupada ou não agrupada. Finalmente, precisamos saber como interpretar o valor p, a decisão e nossa conclusão final. Tudo isso é muito importante ao conduzir um teste de hipótese..

Para mais itens, consulte este perfil:

https://likhithakakanuru.medium.com/

Assine a nossa newsletter

Nós não enviaremos SPAM para você. Nós odiamos isso tanto quanto você.