Hypothesentest | Hypothesentests für Data Science-Anfänger

Inhalt

Dieser Artikel wurde im Rahmen der Data Science Blogathon.

Einführung

untitled-design-4-8851911

Bevor es dazu kommt, Lass uns wissen, was genau Hypothese bedeutet:

"Die Hypothese wird als empfohlene Lösung für einen undefinierbaren Vorfall beschrieben, der nicht in die aktuelle Theorie passt".

Die eigentliche Definition des Hypothesentests besteht darin, dass ein Analytiker eine Annahme bezüglich eines Populationsparameters testet. Die vom Analysten verwendete Methodik hängt von der Art der verwendeten Daten und dem Grund für die Analyse ab..

problem-5283606

Hypothesentest

Schritte zur Durchführung des Hypothesentests:

  1. Definieren Sie Null- und Alternativhypothesen

  2. Daten durchsuchen, Annahmen prüfen

  3. Teststatistik berechnen

  4. Bestimmen Sie den entsprechenden p-Wert

  5. Treffen Sie eine Entscheidung über die Nullhypothese.

Um all diese Schritte auszuführen, Nehmen wir ein Beispiel, um es leicht zu verstehen.

Ärger: Unter Berücksichtigung der italienischen Erwachsenen der Altersgruppe 18 ein 30 Jahre in Italien leben, Haben Männer einen Body-Mass-Index? (IMC) bedeuten deutlich höher als Frauen?

Hier sind die Bevölkerung italienische Erwachsene (18-30) in Italien und der interessierende Parameter ist der Body-Mass-Index (IMC)

Paso 1: Hypothese definieren

  • Null: Es gibt keinen Unterschied im mittleren BMI
    h (0): U1= U2 [U1 steht für den durchschnittlichen BMI der Bevölkerung für Männer und U2 stellt den durchschnittlichen BMI der Bevölkerung für Frauen dar]
    Hier H (0) sagt, sie sind einander gleich
  • Alternative: es gibt einen signifikanten Unterschied im mittleren BMI
    h (EIN): U1=U2 [U1 repräsentiert den durchschnittlichen BMI der Bevölkerung für Männer und U2 repräsentiert den durchschnittlichen BMI der Bevölkerung für Frauen]

    Hier H (EIN) sagt, sie seien einander nicht gleich

  • Signifikanzniveau = 5%

Paso 2: Daten prüfen und Annahmen überprüfen

In diesem Schritt, Die Daten wurden gefiltert, um nur italienische Erwachsene einzuschließen, die zwischen 18 Ja 30 Jahre. Nachdem, Wir müssen einige statistische Berechnungen wie den Mittelwert durchführen, das Minimum, das Maximum, die Standardabweichung und Stichprobengröße für Männer und Frauen.

Einige der Annahmen, die wir überprüfen müssen, sind die folgenden::

  • Stichproben gelten als einfache Zufallsstichproben
  • Die Stichproben sind unabhängig voneinander
  • Beide Antwortpopulationen sind ungefähr normal oder die Stichprobengrößen sind groß genug.

Paso 3: Teststatistik berechnen:

Die Teststatistik ist ein Maß dafür, wie weit unsere Stichprobenstatistik von unserem hypothetischen Populationsparameter entfernt ist., in Bezug auf geschätzte Standardfehler.

  • Z = Beste Schätzung – Nullwert / geschätzter Standardfehler
  • Der beste Schätzwert ist die Differenz zwischen dem Mittelwert der männlichen und weiblichen statistischen Stichprobe
  • Der Nullwert ist der hypothetische Nullwert
  • Der geschätzte Standardfehler für zwei Mittelwerte kann sich je nach dem verwendeten Ansatz ändern..
  • Die zwei Ansätze, die Sie verwenden können, sind der geclusterte Ansatz und der nicht gruppierte Ansatz..
  • Der kombinierte Ansatz besteht darin, dass die Varianz zweier Populationen als gleich angenommen wird.
  • Der Non-Cluster-Ansatz besteht darin, die Annahme gleicher Varianzen zu eliminieren.

Paso 4: Bestimmung des P-Wertes:

Der p-Wert wird unter der Annahme bestimmt, dass die Nullhypothese wahr ist, ist die Wahrscheinlichkeit, eine Teststatistik eines Wertes zu beobachten (MIT) oder extremer.

Also berechnen wir diese Wahrscheinlichkeit unter Verwendung der Z-Verteilung, wobei dF = n1+ n2-2

wir müssen beide Seiten überprüfen, da es sich um eine zweiseitige Alternativhypothese handelt, da unsere Alternative auch nicht dieselbe ist. Daher, wir müssen sowohl das obere als auch das untere Ende unserer Verteilung überprüfen.

Das Verteilungsdiagramm sieht wie unten gezeigt mit der entsprechenden Stichprobengröße und den Freiheitsgraden aus:

28679p-Wert-8901206

Verteilungskurve

In der Grafik oben, Wir können sowohl unseren positiven Teststatistikwert als auch den unteren negativen Teststatistikwert sehen. Das bedeutet, wenn der Unterschied im mittleren BMI der Bevölkerung zwischen Männern und Frauen wirklich null wäre, dann wenn diese Nullhypothese wahr wäre, dann ist es sehr wahrscheinlich, einen Unterschied im Stichprobenmittelwert des statistischen Wertes des Tests oder etwas extremeres zu beobachten. Es gibt fast ein 20 prozentuale Chance, das zu sehen, weil dieser Wert so groß ist, Wir werden fortfahren und den Nullwert nicht ablehnen.

Paso 5: eine Entscheidung treffen

Wenn der P-Wert größer als das Signifikanzniveau ist, was bedeutet, dass es schwache Beweise gegen den Nullwert gibt. Deswegen, wir lehnen die Nullhypothese nicht ab.

Dann, Zusammenfassend, Hypothesentests werden verwendet, um Theorien über einen interessierenden Parameter zu testen. Hier, dieser Parameter ist die Differenz der Populationsmittelwerte. Die grundlegenden Schritte zur Durchführung dieses Hypothesentests. Zuerst, lass uns unsere Hypothesen definieren. Später, Wir werden unsere Daten untersuchen, während wir unsere Annahmen überprüfen und unsere Teststatistik berechnen. Mit dieser Teststatistik, wir bestimmen unseren entsprechenden p-Wert und, Schließlich, Wir werden eine Entscheidung basierend auf diesem Wert treffen.

Die Annahmen für den t-Test bei zwei Stichproben für die Mittelwerte der Grundgesamtheit sind, dass beide Datensätze zwei einfache Zufallsstichproben sein und voneinander unabhängig sein müssen.. Wir müssen sicherstellen, dass beide Antwortpopulationen normal verteilt sind. Andererseits, Wir müssen sicherstellen, dass wir mindestens eine große Stichprobengröße haben, damit wir den zentralen Grenzwertsatz anwenden können. Ob unsere Populationsvariationen gleich sind oder nicht, Es ist auch entscheidend zu bestimmen, ob wir einen geclusterten oder einen nicht geclusterten Ansatz verwenden. Schließlich, wir müssen wissen, wie man den p-Wert interpretiert, die Entscheidung und unser abschließendes Fazit. Diese sind alle sehr wichtig, wenn Sie einen Hypothesentest durchführen..

Für mehr Artikel, siehe dieses Profil:

https://likhithakakanuru.medium.com/

Abonniere unseren Newsletter

Wir senden Ihnen keine SPAM-Mail. Wir hassen es genauso wie du.