Questo articolo è stato pubblicato nell'ambito del Blogathon sulla scienza dei dati.
introduzione
¿Cuántos datos son suficientes para establecer la significación estadística? In altre parole, ¿cuál debería ser el tamaño de muestra óptimo? Spesso, no es del todo factible realizar el experimento estadístico varias veces para garantizar suficiente potencia. Allo stesso tempo, nuestro modelo de aprendizaje automático podría no ser estadísticamente concluyente si no tenemos un tamaño de muestra adecuado.
Primero analicemos el poder estadístico en detalle.
El poder estadístico de una prueba de hipótesis implica la probabilidad de detectar un efecto, dado que existe un efecto verdadero. Es la confianza que se deriva de los resultados de un estudio y está inversamente relacionada con el error tipo 2.
Tenga en cuenta que el error de tipo 2 es falso negativo cuando no rechazamos las hipótesis nulas falsas.
A questo punto, es importante entender ¿qué es la ipotesi nullaL'ipotesi nulla è un concetto fondamentale in statistica che stabilisce un'affermazione iniziale su un parametro di popolazione. Il suo scopo è quello di essere testato e, se confutato, ci permette di accettare l'ipotesi alternativa. Questo approccio è essenziale nella ricerca scientifica, in quanto fornisce un quadro di riferimento per valutare le prove empiriche e prendere decisioni basate sui dati. La sua formulazione e analisi sono cruciali negli studi statistici....? Es una prueba de hipótesis estadística que asume un resultado. Ad esempio, la hipótesis nula en el estadístico KS implica que las dos poblaciones pertenecen a una distribución similar.
Fonte: Wiki con adiciones del autor
Es importante observar en la ilustración anterior que cuanto mayor es la potencia de una prueba, menor es el β, vale a dire, el error de tipo 2
Como la potencia estadística más baja de un experimento conduce a conclusiones no válidas sobre el resultado, se desea que los experimentos tengan un umbral mínimo de potencia. In genere, se espera que sea del 80% O più. Una potencia del 80% significa que hay un 80% de probabilidad de detectar un efecto que existe (e, allo stesso tempo, un 20% de probabilidad de observar un error de tipo 2).
Análisis de poder:
Ahora es el momento de ver una imagen más amplia, vale a dire, el análisis de potencia que depende de cuatro variables relacionadas, come indicato di seguito:
1) Tamaño del efecto: cuanto más prominente tienen los datos, menor es el error aleatorio.
2) Tamaño de la muestra: un tamaño de muestra más grande ayuda a detectar efectos más pequeños
3) Nivel de significación: un
4) Poder estadístico
Las cuatro variables están vinculadas entre sí y el cambio de una variabileIn statistica e matematica, un "variabile" è un simbolo che rappresenta un valore che può cambiare o variare. Esistono diversi tipi di variabili, e qualitativo, che descrivono caratteristiche non numeriche, e quantitativo, che rappresentano quantità numeriche. Le variabili sono fondamentali negli esperimenti e negli studi, poiché consentono l'analisi delle relazioni e dei modelli tra elementi diversi, facilitare la comprensione di fenomeni complessi.... afecta al resto de las variables.
El análisis de potencia es el proceso de estimar una de las 4 variables dadas valores para las 3 variabili. Suele utilizarse para estimar el tamaño mínimo de muestra para realizar un experimento.
UN misuraIl "misura" È un concetto fondamentale in diverse discipline, che si riferisce al processo di quantificazione delle caratteristiche o delle grandezze degli oggetti, fenomeni o situazioni. In matematica, Utilizzato per determinare le lunghezze, Aree e volumi, mentre nelle scienze sociali può riferirsi alla valutazione di variabili qualitative e quantitative. L'accuratezza della misurazione è fondamentale per ottenere risultati affidabili e validi in qualsiasi ricerca o applicazione pratica.... que aumentamos el tamaño de la muestra, también podemos detectar los pequeños efectos, aunque a costa de realizar experimentos estadísticos varias veces. anche allora, llega un punto en el que agregar más datos no aumenta más la potencia.
Tenga en cuenta que es muy posible que la muestra con la que estamos trabajando no capture el efecto incluso si existe en la población. Esto se atribuye en gran parte al error de muestreo cuando la muestra no es representativa de la población.
El análisis de potencia también se utiliza para verificar y validar los resultados y hallazgos del experimento. Ad esempio, si especificamos el tamaño del efecto, el tamaño de la muestra y el nivel de significancia, podemos calcular la potencia de un experimento para verificar si la probabilidad de error de tipo 2 está dentro de un rango aceptable.
Según documentazione, podemos resolver cualquiera de los 4 parametriIl "parametri" sono variabili o criteri che vengono utilizzati per definire, misurare o valutare un fenomeno o un sistema. In vari campi come la statistica, Informatica e Ricerca Scientifica, I parametri sono fondamentali per stabilire norme e standard che guidano l'analisi e l'interpretazione dei dati. La loro corretta selezione e gestione sono fondamentali per ottenere risultati accurati e pertinenti in qualsiasi studio o progetto.... en una prueba T independiente de 2 campioni:
Fonte: Autore
También podemos usar trazar curvas de potencia para comprobar cómo la variación del tamaño del efecto y el tamaño de la muestra diferente cambia la potencia del experimento a un nivel de significancia dado.
Fonte: Autore
Riferimenti:
https://statisticsbyjim.com/hypothesis-testing/sample-size-power-analysis/
https://machinelearningmastery.com/statistical-power-and-power-analysis-in-python/
Imparentato
Articoli correlati:
- Statistiche per la scienza dei dati | Una guida per principianti alle statistiche per la scienza dei dati
- Statistiche per la scienza dei dati | Comprendere le statistiche
- Statistiche in Excel | 10 funzioni statistiche in Microsoft Excel
- Statistiche degli ordini | Cosa sono le statistiche sugli ordini??