Grandi dati

“Análisis de potencia | Estadísticas para principiantes

Questo articolo è stato pubblicato nell'ambito del Blogathon sulla scienza dei dati.

introduzione

¿Cuántos datos son suficientes para establecer la significación estadística? In altre parole, ¿cuál debería ser el tamaño de muestra óptimo? Spesso, no es del todo factible realizar el experimento estadístico varias veces para garantizar suficiente potencia. Allo stesso tempo, nuestro modelo de aprendizaje automático podría no ser estadísticamente concluyente si no tenemos un tamaño de muestra adecuado.

Primero analicemos el poder estadístico en detalle.

El poder estadístico de una prueba de hipótesis implica la probabilidad de detectar un efecto, dado que existe un efecto verdadero. Es la confianza que se deriva de los resultados de un estudio y está inversamente relacionada con el error tipo 2.

Tenga en cuenta que el error de tipo 2 es falso negativo cuando no rechazamos las hipótesis nulas falsas.

A questo punto, es importante entender ¿qué es la hipótesis nula? Es una prueba de hipótesis estadística que asume un resultado. Ad esempio, la hipótesis nula en el estadístico KS implica que las dos poblaciones pertenecen a una distribución similar.

Fonte: Wiki con adiciones del autor

Es importante observar en la ilustración anterior que cuanto mayor es la potencia de una prueba, menor es el β, vale a dire, el error de tipo 2

Como la potencia estadística más baja de un experimento conduce a conclusiones no válidas sobre el resultado, se desea que los experimentos tengan un umbral mínimo de potencia. In genere, se espera que sea del 80% O più. Una potencia del 80% significa que hay un 80% de probabilidad de detectar un efecto que existe (e, allo stesso tempo, un 20% de probabilidad de observar un error de tipo 2).

Análisis de poder:

Ahora es el momento de ver una imagen más amplia, vale a dire, el análisis de potencia que depende de cuatro variables relacionadas, come indicato di seguito:

1) Tamaño del efecto: cuanto más prominente tienen los datos, menor es el error aleatorio.

2) Tamaño de la muestra: un tamaño de muestra más grande ayuda a detectar efectos más pequeños

3) Nivel de significación: un

4) Poder estadístico

Las cuatro variables están vinculadas entre sí y el cambio de una variable afecta al resto de las variables.

El análisis de potencia es el proceso de estimar una de las 4 variables dadas valores para las 3 variabili. Suele utilizarse para estimar el tamaño mínimo de muestra para realizar un experimento.

A medida que aumentamos el tamaño de la muestra, también podemos detectar los pequeños efectos, aunque a costa de realizar experimentos estadísticos varias veces. anche allora, llega un punto en el que agregar más datos no aumenta más la potencia.

Tenga en cuenta que es muy posible que la muestra con la que estamos trabajando no capture el efecto incluso si existe en la población. Esto se atribuye en gran parte al error de muestreo cuando la muestra no es representativa de la población.

El análisis de potencia también se utiliza para verificar y validar los resultados y hallazgos del experimento. Ad esempio, si especificamos el tamaño del efecto, el tamaño de la muestra y el nivel de significancia, podemos calcular la potencia de un experimento para verificar si la probabilidad de error de tipo 2 está dentro de un rango aceptable.

Según documentazione, podemos resolver cualquiera de los 4 parámetros en una prueba T independiente de 2 campioni:

Fonte: Autore

También podemos usar trazar curvas de potencia para comprobar cómo la variación del tamaño del efecto y el tamaño de la muestra diferente cambia la potencia del experimento a un nivel de significancia dado.