Tests d'hypothèses | Tests d'hypothèses pour les débutants en science des données

Contenu

Cet article a été publié dans le cadre du Blogathon sur la science des données.

introduction

sans titre-design-4-8851911

Avant d'aller à ça, Voyons ce que signifie exactement l'hypothèse:

"L'hypothèse est décrite comme une solution recommandée pour un incident indéfinissable qui ne correspond pas à la théorie actuelle".

La définition réelle du test d'hypothèse est par laquelle un analyste teste une hypothèse concernant un paramètre de population. La méthodologie retenue par l'analyste dépend de la nature des données utilisées et du motif de l'analyse..

problème-5283606

Tests d'hypothèses

Étapes pour effectuer le test d'hypothèse:

  1. Définir les hypothèses nulles et alternatives

  2. Parcourir les données, vérifier les hypothèses

  3. Calculer la statistique de test

  4. Déterminer la valeur p correspondante

  5. Prendre une décision sur l'hypothèse nulle.

Pour effectuer toutes ces étapes, prenons un exemple pour comprendre facilement.

Problème: En tenant compte des adultes italiens du groupe d'âge de 18 une 30 années de vie en Italie, Les hommes ont-ils un indice de masse corporelle (IMC) moyenne significativement plus élevée que les femmes?

Ici, la population est composée d'adultes italiens (18-30) en Italie et le paramètre d'intérêt est l'indice de masse corporelle (IMC)

Paso 1: définir l'hypothèse

  • Nul: Il n'y a pas de différence dans l'IMC moyen
    H (0): U1= U2 [U1 représente l'IMC moyen de la population pour les hommes et U2 représente l'IMC moyen de la population pour les femmes]
    Ici H (0) dit qu'ils sont égaux l'un à l'autre
  • Alternative: il y a une différence significative dans l'IMC moyen
    H (UNE): U1=U2 [U1 représente l'IMC moyen de la population pour les hommes et U2 représente l'IMC moyen de la population pour les femmes]

    Ici H (UNE) dit qu'ils ne sont pas égaux les uns aux autres

  • Niveau de signification = 5%

Paso 2: examiner les données et vérifier les hypothèses

Dans cette étape, les données ont été filtrées pour inclure uniquement les adultes italiens qui étaient entre 18 Oui 30 ans. Après cela, nous devons faire des calculs statistiques comme la moyenne, le minimum, le maximum, l'écart type et la taille de l'échantillon pour les hommes et les femmes.

Certaines des hypothèses que nous devons vérifier sont les suivantes:

  • Les échantillons sont considérés comme des échantillons aléatoires simples
  • Les échantillons sont indépendants les uns des autres
  • Les deux populations de réponse sont approximativement normales ou la taille des échantillons est suffisamment grande.

Paso 3: Calculer la statistique de test:

La statistique de test est une mesure de la distance entre notre statistique d'échantillon et notre paramètre de population hypothétique., en termes d'erreurs types estimées.

  • Z = Meilleure estimation – valeur nulle / erreur type estimée
  • La meilleure estimation est la différence entre la moyenne de l'échantillon statistique masculin et féminin
  • La valeur nulle est la valeur nulle hypothétique
  • L'erreur type estimée pour deux moyennes peut changer en fonction de l'approche que nous allons utiliser..
  • Les deux approches que vous pouvez utiliser sont l'approche groupée et l'approche non groupée..
  • L'approche combinée est que la variance de deux populations est supposée égale.
  • L'approche non clusterisée consiste à éliminer l'hypothèse de variances égales.

Paso 4: Détermination de la valeur P:

La valeur p est déterminée en supposant que l'hypothèse nulle est vraie, est la probabilité d'observer une statistique de test d'une valeur (AVEC) ou plus extrême.

Nous allons donc calculer cette probabilité en utilisant la distribution Z où dF = n1+ m2-2

nous devons vérifier les deux côtés car il s'agit d'une hypothèse alternative bilatérale car notre alternative n'est pas la même non plus. donc, nous devons vérifier à la fois les queues supérieure et inférieure de notre distribution.

Le graphique de distribution ressemble à celui illustré ci-dessous avec sa taille d'échantillon et ses degrés de liberté correspondants:

28679p-valeur-8901206

Courbe de distribution

Dans le graphique ci-dessus, nous pouvons voir à la fois notre valeur statistique de test positive et en dessous de la valeur statistique de test négative. Cela signifie que si la différence de l'IMC moyen de la population entre les hommes et les femmes était vraiment nulle, alors si cette hypothèse nulle était vraie, alors il est tout à fait probable d'observer une différence dans les moyennes de l'échantillon de la valeur statistique du test ou quelque chose de plus extrême. Il y a presque un 20 pourcentage de chance de voir cela parce que cette valeur est si grande, nous irons de l'avant et ne rejetterons pas la valeur nulle.

Paso 5: prendre une décision

Si la valeur P est supérieure au seuil de signification, ce qui signifie qu'il y a des preuves faibles contre la valeur nulle. Pourtant, on ne rejette pas l'hypothèse nulle.

Ensuite, en résumé, les tests d'hypothèse sont utilisés pour tester des théories sur un paramètre d'intérêt. Ici, ce paramètre est la différence entre les moyennes de la population. Les étapes de base pour effectuer ce test d'hypothèse. Premier, définissons nos hypothèses. Alors, nous examinerons nos données tout en vérifiant nos hypothèses et en calculant notre statistique de test. Avec cette statistique de test, nous déterminerons notre p-valeur correspondante et, finalement, nous prendrons une décision en fonction de cette valeur.

Les hypothèses pour le test t à deux échantillons pour les moyennes de population sont que nous avons besoin que les deux ensembles de données soient deux échantillons aléatoires simples et qu'ils soient indépendants l'un de l'autre.. Nous devons nous assurer que les deux populations de réponse sont normalement distribuées. Au contraire, nous devons nous assurer que nous avons au moins une grande taille d'échantillon afin que nous puissions appliquer le théorème central limite. Si nos variations de population sont les mêmes ou pas, il est également crucial de déterminer si nous utilisons une approche groupée ou non groupée. Finalement, il faut savoir interpréter la p-value, la décision et notre conclusion finale. Tous ces éléments sont très importants lors de la réalisation d'un test d'hypothèse..

Pour plus d'articles, voir ce profil:

https://likhithakakanuru.medium.com/

Abonnez-vous à notre newsletter

Nous ne vous enverrons pas de courrier SPAM. Nous le détestons autant que vous.