“Análise de energia | Estatísticas para iniciantes

Conteúdo

Este artigo foi publicado como parte do Data Science Blogathon.

Introdução

Quanto dados são suficientes para estabelecer significância estatística? Em outras palavras, qual deve ser o tamanho ideal da amostra? Frequentemente, não é inteiramente viável realizar o experimento estatístico várias vezes para garantir poder suficiente. Ao mesmo tempo, nosso modelo de aprendizado de máquina pode não ser estatisticamente conclusivo se não temos um tamanho amostral adequado.

Vamos primeiro analisar o poder estatístico em detalhes.

Poder estatístico de um teste de hipótese implica a probabilidade de detectar um efeito, uma vez que há um verdadeiro efeito. É a confiança que deriva dos resultados de um estudo e está inversamente relacionada ao erro de tipo 2.

Observe que o erro de tipo 2 é falso negativo quando não rejeitamos falsas hipóteses nulas.

Neste ponto, é importante entender qual é a hipótese nula?? É um teste estatístico de hipóteses que assume um resultado. Por exemplo, a hipótese nula na estatística KS implica que as duas populações pertencem a uma distribuição semelhante.

59165conf_mat-2551723

Fonte: Wiki com adições autorais

É importante notar na ilustração acima que maior o poder de um teste, menor é o β, quer dizer, o erro de tipo 2

Como o menor poder estatístico de um experimento leva a conclusões inválidas sobre o resultado, experimentos são desejados para ter um limite de energia mínimo. Geralmente, espera-se que seja de 80% Ou mais. Um poder do 80% significa que há um 80% de probabilidade de detectar um efeito que existe (e, na sua vez, uma 20% de probabilidade de observar um erro de tipo 2).

Análise de energia:

Agora é hora de ver um quadro maior, quer dizer, análise de energia que depende de quatro variáveis relacionadas, como mencionado abaixo:

1) Tamanho do efeito: quanto mais proeminentes os dados são, menor é o erro aleatório.

2) Tamanho da amostra: um tamanho amostral maior ajuda a detectar efeitos menores

3) Nível de significância: uma

4) Alimentado

as quatro variáveis estão ligadas umas às outras e a mudança de uma variável afeta o resto das variáveis.

Análise de energia é o processo de estimar um dos 4 variáveis dadas valores para o 3 variáveis. Geralmente é usado para estimar o tamanho mínimo da amostra para realizar um experimento.

À medida que aumentamos o tamanho da amostra, também podemos detectar os pequenos efeitos, embora ao custo de realizar experimentos estatísticos várias vezes. Mesmo assim, chega um ponto em que adicionar mais dados não aumenta mais a energia.

Note-se que é bem possível que a amostra com a que estamos trabalhando não capture o efeito mesmo que exista na população.. Isso é atribuído em grande parte ao erro amostral quando a amostra não é representativa da população..

A análise de energia também é utilizada para verificar e validar os resultados e achados do experimento.. Por exemplo, se especificarmos o tamanho do efeito, o tamanho da amostra e o nível de significância, podemos calcular o poder de um experimento para verificar se a probabilidade de erro de tipo 2 está dentro de um alcance aceitável.

De acordo com documentação, podemos resolver qualquer um dos 4 parâmetros em um teste T independente de 2 amostras:

73445pic1-5632131

Fonte: Autor

Nós também podemos usar curvas de poder de enredo para verificar como a variação no tamanho do efeito e o tamanho diferente da amostra altera o poder do experimento para um determinado nível de significância.

44415pic2-2182658

Fonte: Autor

Referências:

https://statisticsbyjim.com/hypothesis-testing/sample-size-power-analysis/

https://machinelearningmastery.com/statistical-power-and-power-analysis-in-python/

Assine a nossa newsletter

Nós não enviaremos SPAM para você. Nós odiamos isso tanto quanto você.