Testando hipóteses | Testes paramétricos e não paramétricos

Conteúdo

Este artigo foi publicado como parte do Data Science Blogathon

Introdução

O teste de hipóteses é um dos conceitos mais importantes em Estatísticas que é amplamente utilizado por Estatisticas, Engenheiros de aprendizado de máquina, e Cientistas de dados.

Em testes de hipóteses, Testes estatísticos são usados para verificar se o hipótese nula é rejeitado ou não rejeitado. Estão Testes estatísticos assumir um nulo hipótese de nenhuma relação ou nenhuma diferença entre grupos.

Então, neste artigo, Discutiremos testes estatísticos para testes de hipóteses, incluindo testes paramétricos e não paramétricos.

Tabela de conteúdo

1. O que são testes paramétricos?

2. O que são testes não paramétricos?

3. Testes paramétricos para testes de hipóteses

  • Teste t
  • Teste Z
  • Teste F
  • ANOVA

4. Testes não paramétricos para testes de hipóteses

  • Chi ao quadrado
  • Teste U de Mann-Whitney
  • Teste H de Kruskal-Wallis

Comecemos,

Testes paramétricos

El principio básico detrás de las pruebas paramétricas es que tenemos un conjunto fijo de parametros que se utilizan para determinar un modelo probabilístico que también se puede utilizar en Machine Learning.

Testes paramétricos são aqueles testes para os quais temos conhecimento prévio da distribuição da população (quer dizer, normal), senão, Podemos facilmente aproximá-lo a uma distribuição normal, o que é possível com a ajuda do Teorema do Limite Central.

Os parâmetros para usar a distribuição normal são:

Finalmente, A classificação de um teste como paramétrico depende inteiramente dos pressupostos da população. Muitos testes paramétricos estão disponíveis, alguns dos quais são como segue:

  • Encontrar o intervalo de confiança para os meios populacionais com a ajuda do desvio padrão conhecido.
  • Determinar o intervalo de confiança para os meios populacionais, juntamente com o desvio padrão desconhecido.
  • Encontre o intervalo de confiança para a variância populacional.
  • Encontre o intervalo de confiança para a diferença de dois meios, com um valor de desvio padrão desconhecido.

Testes não paramétricos

Em testes não paramétricos, Não fazemos suposições sobre os parâmetros para a população ou para a população que estamos estudando.. De fato, Esses testes não são dependentes da população.
Portanto, Nenhum conjunto fixo de parâmetros disponíveis, E também não há distribuição. (distribuição normal, etc.) de qualquer tipo disponível para uso.

É também por isso que testes não paramétricos também são chamados Testes sem distribuição.
Na atualidade, Testes não paramétricos estão ganhando popularidade e um impacto influente, Algumas das razões por trás desta fama é:

  • A principal razão é que não há necessidade de ser educado ao usar testes paramétricos..
  • A segunda razão é que não precisamos fazer suposições sobre a população dada. (ou tomadas) em que estamos fazendo a análise.
  • A maioria dos testes não paramétricos disponíveis são muito fáceis de aplicar e entender também., quer dizer, A complexidade é muito baixa.

49317HP-4112584

Fonte da imagem: Imagens do google

Teste T

1. É um teste de hipótese paramétrica baseado em Distribuição t de aluno.

2. Essencialmente, Trata-se de testar a significância da diferença de valores médios quando o tamanho da amostra é pequeno (quer dizer, Menos de 30) e quando o desvio padrão da população não está disponível.

3. Suposições deste teste:

  • A distribuição da população é normal e
  • As amostras são aleatórias e independentes.
  • O tamanho da amostra é pequeno.
  • O desvio padrão da população é desconhecido.

4. O teste 'U’ Mann-Whitney é uma contrapartida não paramétrica do teste T.

Um teste T pode ser:

T-teste de uma amostra: Compare uma média amostral com a média populacional.

Introdução às estatísticas para análise de incertezas |  ISOORÇADORES |  Teste de hipóteses

Onde,

X é a média amostral

s é o desvio padrão da amostra

Norte é o tamanho da amostra

μ é a média da população

Teste T de duas amostras: Compare os meios de duas amostras diferentes.

t-test-fórmula-4514973

Onde,

X1 é a média amostral do primeiro grupo

X2 é a média amostral do segundo grupo

S1 é o desvio padrão da amostra 1

S2 é o desvio padrão da amostra 2

Norte é o tamanho da amostra

conclusão:

  • Se o valor da estatística de teste for maior que o valor na tabela -> Rejeita a hipótese nula.
  • Se o valor da estatística de teste for menor que o valor na tabela -> Não rejeite a hipótese nula..

Teste Z

1. É um teste de hipóteses paramétricas.

2. É usado para determinar se os meios são diferentes quando a variância da população é conhecida e o tamanho da amostra é grande. (quer dizer, maior do que 30).

3. Suposições deste teste:

  • A distribuição da população é normal
  • As amostras são aleatórias e independentes.
  • O tamanho da amostra é grande.
  • O desvio padrão da população é conhecido.

Um teste Z pode ser:

Teste Z de uma amostra: Compare uma média amostral com a média populacional.

1b7izyqyp8sj-w51x_l5ekg-3284864

Fonte da imagem: Imagens do google

Teste Z de duas amostras: Compare os meios de duas amostras diferentes.

220amostra20z20score-8196051

Onde,

X1 é a média amostral do primeiro grupo

X2 é a média amostral do segundo grupo

σ1 é o desvio padrão da população 1

σ2 é o desvio padrão da população 2

Norte é o tamanho da amostra

Teste F

1. É um teste de hipótese paramétrica baseado em Distribuição F do Snedecor.

2. É um teste para a hipótese nula de que duas populações normais têm a mesma variância..

3. Um teste F é considerado uma comparação da igualdade das variâncias amostrais.

4. A estatística F é simplesmente uma relação de duas variâncias.

5. É calculado como:

F = s12/s22

Análise de dados em testes de hipóteses de geociência

6. Mudando a variância na relação, o teste F tornou-se um teste muito flexível. Ele pode então ser usado para:

  • Teste a significância geral para um modelo de regressão.
  • Compare as configurações de diferentes modelos e
  • Provando igualdade de meios.

7. Suposições deste teste:

  • A distribuição da população é normal e
  • As amostras são colhidas aleatoriamente e de forma independente.

ANOVA

1. Também chamado de Análise de variação, é um teste de hipóteses paramétricas.

2. É uma extensão do teste T e do teste Z.

3. Usado para testar a significância das diferenças nos valores médios entre mais de dois grupos amostrais.

4. Use o teste F para testar estatisticamente a igualdade de meios e a variância relativa entre eles.

5. Suposições deste teste:

  • A distribuição da população é normal e
  • As amostras são aleatórias e independentes.
  • Homogeneidade da variância amostral.

6. ANOVA unidirecional e ANOVA Bidirecional são tipos.

7. Estatística F = variância entre as médias amostrais / Variância dentro da amostra

Teste qui-quadrado

1. É um teste de hipótese não paramétrica.

2. Como um teste não paramétrico, Você pode usar qui-quadrado:

  • Teste de bondade de ajuste.
  • como um teste de independência de duas variáveis.

3. Ajuda a avaliar a bondade do ajuste entre um conjunto de teoricamente observado e esperado.

4. Faz uma comparação entre frequências esperadas e frequências observadas.

5. Quanto maior a diferença, Quanto maior o valor qui-quadrado.

6. Se não houver diferença entre as frequências esperadas e observadas, então o valor qui-quadrado é igual a zero.

7. Também é conhecido como o “Bondade do teste de ajuste” que determina se uma distribuição específica está em conformidade com os dados observados ou não.

8. É calculado como:

Chisqu-8700372

9. Chi-quadrado também é usado para testar a independência de duas variáveis..

10. Condições para o teste qui-quadrado:

  • Coletar e registrar observações aleatórias.
  • Na amostra, Todas as entidades devem ser independentes.
  • Nenhum dos grupos deve conter poucos itens, vamos dizer menos que 10.
  • O número total razoavelmente grande de itens. Normalmente, deve ser, pelo menos, 50, Não importa o quão pequeno o número de grupos.

11. Qui-quadrado como um teste paramétrico é usado como um teste para variância populacional com base na variância amostral.

12. Se tirarmos cada uma das variâncias amostrais, Dividimo-los pela variância populacional conhecida e multiplicamos essas proporções por (n-1), onde n significa o número de itens na amostra, Nós temos os valores qui-quadrado.

13. É calculado como:

qui-quadrado-teste-1232384

Teste U de Mann-Whitney

1. É um teste de hipótese não paramétrica.

2. Este teste é usado para investigar se duas amostras independentes foram selecionadas de uma população que tem a mesma distribuição.

3. É uma verdadeira contrapartida não paramétrica para o teste T e fornece as estimativas de significância mais precisas, especialmente quando os tamanhos amostrais são pequenos e a população não tem uma distribuição normal.

4. Baseia-se na comparação de cada observação da primeira amostra com cada observação da outra amostra.

5. A estatística de teste usada aqui é “você”.

6. O valor máximo de “você” en 'n1*Norte2'e o valor mínimo é zero.

7. Também é conhecido como:

  • Teste de Mann-Whitney Wilcoxon.
  • Teste de Alcance Mann-Whitney Wilcoxon.

8. Matematicamente, U é dado por:

você1 = R1 – n1(Norte1+1) / 2

onde n1 é o tamanho da amostra para a amostra 1, e R1 é a soma de fileiras na Amostra 1.

você2 = R2 – n2(Norte2+1) / 2

Ao consultar as tabelas de significado, valores menores que U1 e você2 Eles são usados. A soma de dois valores é dada por,

você1 + você2 = {R1 – n1(Norte1+1) / 2} + {R2 – n2(Norte2+1) / 2}

Sabendo que R1+ R2 = N (N + 1) / 2 e N = n1+ n2, e fazendo um pouco de álgebra, Descobrimos que a soma é:

você1 + você2 = n1*Norte2

Teste H de Kruskal-Wallis

1. É um teste de hipótese não paramétrica.

2. Este teste é usado para comparar duas ou mais amostras independentes dos mesmos tamanhos de amostra ou diferentes.

3. Estende o teste Mann-Whitney U, usado para comparar apenas dois grupos.

4. O ANOVA unidirecional é o equivalente paramétrico deste teste. E é por isso que também é conhecido como ‘ANOVA unidirecional em faixas.

5. Use intervalos em vez de dados reais.

6. Não assume que a população é normalmente distribuída.

7. A estatística de teste usada aqui é “H”.

Isso completa a discussão de hoje!!

Notas finais

Obrigado pela leitura!

Espero que tenha gostado do artigo e aumentado seu conhecimento sobre testes estatísticos para testes de hipóteses em estatísticas..

Por favor sinta-se à vontade para me contactar sobre Correio eletrônico

Qualquer coisa não mencionada ou você deseja compartilhar suas idéias? Sinta-se à vontade para comentar abaixo e eu entrarei em contato com você.

Para itens restantes, Pedir ao Ligação.

Sobre o autor

Aashi Goyal

Atualmente, Estou cursando bacharelado em tecnologia (B.Tech) em Engenharia Eletrônica e de Comunicação pela Universidad Guru Jambheshwar (GJU), Hisar. Estou muito animado com as estatísticas, aprendizado de máquina e aprendizado profundo.

A mídia mostrada neste artigo não é propriedade da DataPeaker e é usada a critério do autor.

Assine a nossa newsletter

Nós não enviaremos SPAM para você. Nós odiamos isso tanto quanto você.