Cet article a été publié dans le cadre du Blogathon sur la science des données
introduction
Le test d'hypothèse est l'un des concepts les plus importants en statistique qui est largement utilisé par Statistiques, Ingénieurs en apprentissage automatique, Oui Scientifiques des données.
Dans les tests d'hypothèses, des tests statistiques sont utilisés pour vérifier si le hypothèse nulle est rejeté ou non rejeté. Sommes Tests statistiques supposer nul hypothèse aucune relation ou aucune différence entre les groupes.
Ensuite, dans cet article, nous discuterons du test statistique pour le test d'hypothèse, y compris les tests paramétriques et non paramétriques.
Table des matières
1. Que sont les tests paramétriques?
2. Que sont les tests non paramétriques?
3. Tests paramétriques pour les tests d'hypothèse
- Testez
- essai Z
- Essai F
- ANOVA
4. Tests non paramétriques pour les tests d'hypothèse
- Chi au carré
- Test Mann-Whitney U
- Test de Kruskal-Wallis H
Commençons,
Tests paramétriques
Le principe de base des tests paramétriques est que nous avons un ensemble fixe de paramètres qui sont utilisés pour déterminer un modèle probabiliste qui peut également être utilisé dans le Machine Learning..
Les tests paramétriques sont les tests pour lesquels nous avons une connaissance préalable de la distribution de la population (c'est-à-dire, Ordinaire), ou sinon, nous pouvons facilement l'approcher d'une distribution normale, ce qui est possible à l'aide du théorème central limite.
Les paramètres pour utiliser la distribution normale sont:
Finalement, la classification d'un test comme paramétrique dépend entièrement des hypothèses de la population. Il existe de nombreux tests paramétriques disponibles, dont certains sont les suivants:
- Pour trouver l'intervalle de confiance pour les moyennes de population à l'aide de l'écart type connu.
- Déterminer l'intervalle de confiance pour les moyennes de la population ainsi que l'écart type inconnu.
- Trouver l'intervalle de confiance pour la variance de la population.
- Trouver l'intervalle de confiance pour la différence de deux moyennes, avec une valeur d'écart type inconnue.
Tests non paramétriques
Dans les tests non paramétriques, nous ne faisons aucune hypothèse sur les paramètres de la population donnée ou de la population que nous étudions. En réalité, ces tests ne dépendent pas de la population.
Donc, aucun ensemble fixe de paramètres disponibles, et il n'y a pas de distribution (distribution normale, etc.) de tout type disponible pour utilisation.
C'est aussi pourquoi les tests non paramétriques sont aussi appelés tests sans diffusion.
Actuellement, les tests non paramétriques gagnent en popularité et ont un impact déterminant, certaines des raisons de cette renommée sont:
- La raison principale est qu'il n'est pas nécessaire d'être poli lors de l'utilisation de tests paramétriques.
- La deuxième raison est que nous n'avons pas besoin de faire des hypothèses sur la population donnée (la prise) sur laquelle on fait l'analyse.
- La plupart des tests non paramétriques disponibles sont également très faciles à appliquer et à comprendre., c'est-à-dire, la complexité est très faible.
Source de l'image: Google images
Tester T
1. C'est un test paramétrique de test d'hypothèse basé sur Distribution t de Student.
2. Essentiellement, il s'agit de tester la significativité de la différence des valeurs moyennes lorsque la taille de l'échantillon est petite (c'est-à-dire, moins de 30) et lorsque l'écart type de la population n'est pas disponible.
3. Hypothèses de ce test:
- La répartition de la population est normale et
- Les échantillons sont aléatoires et indépendants.
- La taille de l'échantillon est petite.
- L'écart type de la population est inconnu.
4. Le test en U’ Mann-Whitney est une contrepartie non paramétrique du test T.
Un test T peut être:
Test T à un échantillon: Comparer une moyenne d'échantillon avec la moyenne de la population.
où,
X est la moyenne de l'échantillon
s est l'écart type de l'échantillon
Nord est la taille de l'échantillon
?? est la moyenne de la population
Test T à deux échantillons: Comparer les moyennes de deux échantillons différents.
où,
X1 est la moyenne de l'échantillon du premier groupe
X2 est la moyenne de l'échantillon du deuxième groupe
S1 est l'écart type de l'échantillon 1
S2 est l'écart type de l'échantillon 2
Nord est la taille de l'échantillon
conclusion:
- Si la valeur de la statistique de test est supérieure à la valeur du tableau -> Rejeter l'hypothèse nulle.
- Si la valeur de la statistique de test est inférieure à la valeur du tableau -> Ne pas rejeter l'hypothèse nulle.
essai Z
1. C'est un test paramétrique de test d'hypothèse.
2. Utilisé pour déterminer si les moyennes sont différentes lorsque la variance de la population est connue et que la taille de l'échantillon est grande (c'est-à-dire, plus grand que 30).
3. Hypothèses de ce test:
- La répartition de la population est normale
- Les échantillons sont aléatoires et indépendants.
- La taille de l'échantillon est grande.
- L'écart type de la population est connu.
Un test Z peut être:
Un échantillon de test Z: Comparer une moyenne d'échantillon avec la moyenne de la population.
Source de l'image: Google images
Test Z à deux échantillons: Comparer les moyennes de deux échantillons différents.
où,
X1 est la moyenne de l'échantillon du premier groupe
X2 est la moyenne de l'échantillon du deuxième groupe
??1 est l'écart type de la population 1
??2 est l'écart type de la population 2
Nord est la taille de l'échantillon
Essai F
1. C'est un test paramétrique de test d'hypothèse basé sur Distribution Snedecor F.
2. C'est un test pour l'hypothèse nulle que deux populations normales ont la même variance.
3. Un test F est considéré comme une comparaison de l'égalité des variances de l'échantillon.
4. La statistique F est simplement une relation de deux variances.
5. Il est calculé comme:
F = s12/s22
6. En changeant la variance dans la relation, le test F est devenu un test très flexible. Il peut alors être utilisé pour:
- Tester la signification générale d'un modèle de régression.
- Comparez les réglages des différents modèles et
- Test d'égalité des moyennes.
7. Hypothèses de ce test:
- La répartition de la population est normale et
- Les échantillons sont tirés au hasard et indépendamment.
ANOVA
1. Aussi appelé comme Analyse des variations, est un test paramétrique de test d'hypothèse.
2. C'est une extension du test T et du test Z.
3. Il est utilisé pour tester la significativité des différences de valeurs moyennes entre plus de deux groupes d'échantillons..
4. Utilisez le test F pour tester statistiquement l'égalité des moyennes et la variance relative entre elles.
5. Hypothèses de ce test:
- La répartition de la population est normale et
- Les échantillons sont aléatoires et indépendants.
- Homogénéité de la variance de l'échantillon.
6. L'ANOVA à une voie et l'ANOVA à deux voies sont des types.
7. Statistique F = variance entre les moyennes de l'échantillon / variance intra-échantillon
Test du chi carré
1. C'est un test non paramétrique de test d'hypothèse.
2. En tant que test non paramétrique, Le chi carré peut être utilisé:
- test d'adéquation.
- comme test d'indépendance de deux variables.
3. Aide à évaluer la qualité de l'ajustement entre un ensemble de valeurs théoriquement observées et attendues.
4. Fait une comparaison entre les fréquences attendues et les fréquences observées.
5. Plus la différence est grande, plus la valeur du chi carré est grande.
6. S'il n'y a pas de différence entre les fréquences attendues et observées, alors la valeur du khi carré est égale à zéro.
7. Il est également connu sous le nom de “Test d'adéquation” qui détermine si une distribution particulière correspond aux données observées ou non.
8. Il est calculé comme:
9. Le chi carré est également utilisé pour tester l'indépendance de deux variables.
10. Conditions pour le test du chi carré:
- Recueillir et enregistrer des observations aléatoires.
- Dans l'échantillon, toutes les entités doivent être indépendantes.
- Aucun des deux groupes ne doit contenir très peu d'éléments, disons moins que 10.
- Le nombre total raisonnablement élevé d'articles. Normalement, devrait être au moins 50, peu importe le nombre de groupes.
11. Le khi carré en tant que test paramétrique est utilisé comme test de la variance de la population en fonction de la variance de l'échantillon.
12. Si nous prenons chacune d'une collection de variances d'échantillon, Nous les divisons par la variance connue de la population et multiplions ces ratios par (n-1), où n signifie le nombre d'éléments dans l'échantillon, on obtient les valeurs du chi carré.
13. Il est calculé comme:
Test Mann-Whitney U
1. C'est un test non paramétrique de test d'hypothèse.
2. Ce test est utilisé pour déterminer si deux échantillons indépendants ont été sélectionnés à partir d'une population ayant la même distribution..
3. Il s'agit d'une véritable contrepartie non paramétrique du test T et fournit les estimations de signification les plus précises., surtout lorsque la taille des échantillons est petite et que la population n'a pas une distribution normale.
4. Il est basé sur la comparaison de chaque observation du premier échantillon avec chaque observation de l'autre échantillon.
5. La statistique de test utilisée ici est “U”.
6. La valeur maximale de “U” est' n1*Nord2'Et la valeur minimale est zéro.
7. Il est également connu sous le nom:
- Test de Mann-Whitney Wilcoxon.
- Test de portée Mann-Whitney Wilcoxon.
8. Mathématiquement, U est donné par:
U1 = R1 – m1(Nord1+1) / 2
où1 est la taille de l'échantillon pour l'échantillon 1, y R1 est la somme des rangs dans l'échantillon 1.
U2 = R2 – m2(Nord2+1) / 2
Lors de la consultation des tableaux d'importance, les plus petites valeurs de U1 et toi2 Ils sont utilisés. La somme de deux valeurs est donnée par,
U1 + U2 = {R1 – m1(Nord1+1) / 2} + {R2 – m2(Nord2+1) / 2}
Sachant que R1+ R2 = N (N + 1) / 2 et N = n1+ m2, et faire de l'algèbre, on trouve que la somme est:
U1 + U2 = n1*Nord2
Test de Kruskal-Wallis H
1. C'est un test non paramétrique de test d'hypothèse.
2. Ce test est utilisé pour comparer deux ou plusieurs échantillons indépendants de tailles d'échantillon identiques ou différentes.
3. Prolonge le test Mann-Whitney U, qui est utilisé pour comparer seulement deux groupes.
4. L'ANOVA unidirectionnelle est l'équivalent paramétrique de ce test. Et c'est pourquoi on l'appelle aussi ‘ANOVA à sens unique dans les plages.
5. Utiliser des plages au lieu de données réelles.
6. Il ne suppose pas que la population est normalement distribuée.
7. La statistique de test utilisée ici est “H”.
Ceci termine la discussion d'aujourd'hui!!
Remarques finales
Merci pour la lecture!
J'espère que vous avez apprécié l'article et augmenté vos connaissances sur les tests statistiques pour les tests d'hypothèses en statistique.
N'hésitez pas à me contacter sur Courrier électronique
Tout ce qui n'est pas mentionné ou voulez-vous partager vos pensées? N'hésitez pas à commenter ci-dessous et je vous répondrai.
Pour les articles restants, Demande à Relier.
A propos de l'auteur
Aashi Goyal
Actuellement, Je poursuis mon Bachelor of Technology (B.Tech) en génie électronique et des communications de Universidad Guru Jambheshwar (GJU), Hisar. Je suis très excité par les statistiques, apprentissage automatique et apprentissage profond.
Les médias présentés dans cet article ne sont pas la propriété de DataPeaker et sont utilisés à la discrétion de l'auteur.
En rapport
Articles Similaires:
- Trucs et astuces Excel | Conseils Excel pour l'analyse des données
- Les meilleures ressources pour apprendre à programmer dans MATLAB
- https://www.analyticsvidhya.com/blog/2020/02/cnn-vs-rnn-vs-mlp-analyzing-3-types-of-neural-networks-in-deep-learning/
- Filetage en Python | Qu'est-ce que le threading en Python?