Dieser Artikel wurde im Rahmen der Data Science Blogathon
Einführung
Das Testen von Hypothesen ist eines der wichtigsten Konzepte in der Statistik, das von Statistiken, Ingenieure für maschinelles Lernen, Ja Datenwissenschaftler.
Im Hypothesentest, statistische Tests werden verwendet, um zu überprüfen, ob die NullhypotheseDie Nullhypothese ist ein grundlegendes Konzept in der Statistik, das eine anfängliche Aussage über einen Populationsparameter festlegt. Sein Zweck ist es,, falls widerlegt, ermöglicht es uns, die Alternativhypothese zu akzeptieren. Dieser Ansatz ist für die wissenschaftliche Forschung unerlässlich, da sie einen Rahmen für die Bewertung empirischer Evidenz und das Treffen datengestützter Entscheidungen bietet. Seine Formulierung und Analyse sind für statistische Studien von entscheidender Bedeutung.... wird abgelehnt oder nicht abgelehnt. Sind Statistische Tests nehme null an Hypothese keine Beziehung oder kein Unterschied zwischen den Gruppen.
Dann, In diesem Artikel, wir diskutieren den statistischen Test für Hypothesentests, einschließlich parametrischer und nichtparametrischer Tests.
Inhaltsverzeichnis
1. Was sind parametrische Tests?
2. Was sind nichtparametrische Tests??
3. Parametrische Tests für Hypothesentests
- Testen Sie t
- Z-Test
- Test F
- ANOVA
4. Nichtparametrische Tests für Hypothesentests
- Chi im Quadrat
- Mann-Whitney U-Test
- Kruskal-Wallis H-Test
Lasst uns beginnen,
Parametrische Tests
El principio básico detrás de las pruebas paramétricas es que tenemos un conjunto fijo de ParameterDas "Parameter" sind Variablen oder Kriterien, die zur Definition von, ein Phänomen oder System zu messen oder zu bewerten. In verschiedenen Bereichen wie z.B. Statistik, Informatik und naturwissenschaftliche Forschung, Parameter sind entscheidend für die Etablierung von Normen und Standards, die die Datenanalyse und -interpretation leiten. Ihre richtige Auswahl und Handhabung sind entscheidend, um genaue und relevante Ergebnisse in jeder Studie oder jedem Projekt zu erhalten.... que se utilizan para determinar un modelo probabilístico que también se puede utilizar en Machine Learning.
Parametrische Tests sind solche Tests, für die wir Vorkenntnisse über die Populationsverteilung haben (nämlich, normal), oder wenn nicht, wir können es leicht einer Normalverteilung annähern, was mit Hilfe des Zentralen Grenzwertsatzes möglich ist.
Die Parameter zur Verwendung der Normalverteilung sind:
Schließlich, die Einstufung eines Tests als parametrisch hängt vollständig von den Annahmen der Grundgesamtheit ab. Es stehen viele parametrische Tests zur Verfügung, einige davon sind die folgenden:
- Das Konfidenzintervall für die Grundgesamtheit zu ermitteln bedeutet mit Hilfe der bekannten Standardabweichung.
- Bestimmen Sie das Konfidenzintervall für die Mittelwerte der Grundgesamtheit zusammen mit der unbekannten Standardabweichung.
- Ermitteln des Konfidenzintervalls für die Populationsvarianz.
- Ermitteln des Konfidenzintervalls für die Differenz zweier Mittelwerte, mit unbekanntem Standardabweichungswert.
Nichtparametrische Tests
In nichtparametrischen Tests, wir machen keine Annahmen über die Parameter für die gegebene Population oder die Population, die wir untersuchen. Eigentlich, Diese Tests sind nicht bevölkerungsabhängig.
Deswegen, kein fester Parametersatz vorhanden, und es gibt keine Verteilung (Normalverteilung, etc.) jeglicher Art zur Verfügung.
Deshalb werden auch nichtparametrische Tests genannt Tests ohne Verteilung.
Heutzutage, Nichtparametrische Tests werden immer beliebter und beeinflussen ihre Wirkung, Einige der Gründe für diesen Ruhm sind:
- Der Hauptgrund ist, dass man bei der Verwendung parametrischer Tests nicht höflich sein muss.
- Der zweite Grund ist, dass wir keine Annahmen über die gegebene Population machen müssen (die Aufnahme) an dem wir die Analyse durchführen.
- Die meisten der verfügbaren nicht-parametrischen Tests sind ebenfalls sehr einfach anzuwenden und zu verstehen, nämlich, Komplexität ist sehr gering.
Bildquelle: Google Bilder
Test T
1. Es ist ein parametrischer Hypothesentest basierend auf t-Verteilung des Schülers.
2. Im Wesentlichen, es geht darum, die Signifikanz der Differenz der Mittelwerte bei kleinem Stichprobenumfang zu testen (nämlich, weniger als 30) und wenn die Standardabweichung der Grundgesamtheit nicht verfügbar ist.
3. Annahmen dieses Tests:
- Die Bevölkerungsverteilung ist normal und
- Stichproben sind zufällig und unabhängig.
- Stichprobengröße ist klein.
- Die Standardabweichung der Grundgesamtheit ist unbekannt.
4. La prueba ‚U‘ Mann-Whitney ist ein nichtparametrisches Gegenstück zum T-Test.
Ein T-Test kann sein:
Einstichproben-T-Test: Vergleichen Sie den Mittelwert einer Stichprobe mit dem Mittelwert der Grundgesamtheit.
wo,
x ist der Stichprobenmittelwert
S ist die Standardabweichung der Stichprobe
Norden ist die Stichprobengröße
μ ist der Durchschnitt der Bevölkerung
T-Test bei zwei Stichproben: Vergleichen Sie die Mittelwerte zweier verschiedener Stichproben.
wo,
x1 ist der Stichprobenmittelwert der ersten Gruppe
x2 ist der Stichprobenmittelwert der zweiten Gruppe
S1 ist die Standardabweichung der Stichprobe 1
S2 ist die Standardabweichung der Stichprobe 2
Norden ist die Stichprobengröße
Fazit:
- Wenn der Wert der Teststatistik größer ist als der Wert in der Tabelle -> Verwerfen Sie die Nullhypothese.
- Wenn der Wert der Teststatistik kleiner als der Wert in der Tabelle ist -> Lehnen Sie die Nullhypothese nicht ab.
Z-Test
1. Es ist ein parametrischer Test des Hypothesentests.
2. Wird verwendet, um zu bestimmen, ob die Mittelwerte unterschiedlich sind, wenn die Varianz der Grundgesamtheit bekannt und der Stichprobenumfang groß ist (nämlich, größer als 30).
3. Annahmen dieses Tests:
- Die Bevölkerungsverteilung ist normal
- Stichproben sind zufällig und unabhängig.
- Die Stichprobengröße ist groß.
- Die Standardabweichung der Grundgesamtheit ist bekannt.
Ein Z-Test kann sein:
Ein Beispiel Z-Test: Vergleichen Sie den Mittelwert einer Stichprobe mit dem Mittelwert der Grundgesamtheit.
Bildquelle: Google Bilder
Z-Test bei zwei Stichproben: Vergleichen Sie die Mittelwerte zweier verschiedener Stichproben.
wo,
x1 ist der Stichprobenmittelwert der ersten Gruppe
x2 ist der Stichprobenmittelwert der zweiten Gruppe
σ1 ist die Standardabweichung der Grundgesamtheit 1
σ2 ist die Standardabweichung der Grundgesamtheit 2
Norden ist die Stichprobengröße
Test F
1. Es ist ein parametrischer Hypothesentest basierend auf Snedecor F-Verteilung.
2. Es ist ein Test für die Nullhypothese, dass zwei Normalpopulationen die gleiche Varianz haben.
3. Ein F-Test wird als Vergleich der Gleichheit der Stichprobenvarianzen betrachtet.
4. Die F-Statistik ist einfach eine Beziehung zweier Varianzen.
5. Es wird berechnet als:
F = s12/S22
6. Durch Ändern der Varianz in der Beziehung, der F-Test ist ein sehr flexibler Test geworden. Es kann dann verwendet werden, um:
- Testen Sie die allgemeine Signifikanz für ein Regressionsmodell.
- Vergleichen Sie die Einstellungen verschiedener Modelle und
- Prüfung auf Mittelgleichheit.
7. Annahmen dieses Tests:
- Die Bevölkerungsverteilung ist normal und
- Die Stichproben werden zufällig und unabhängig gezogen.
ANOVA
1. Auch als bezeichnet Variationsanalyse, ist ein parametrischer Hypothesentest.
2. Es ist eine Erweiterung des T-Tests und des Z-Tests.
3. Es wird verwendet, um die Signifikanz von Unterschieden der Mittelwerte zwischen mehr als zwei Stichprobengruppen zu testen..
4. Verwenden Sie den F-Test, um die Gleichheit der Mittelwerte und die relative Varianz zwischen ihnen statistisch zu testen.
5. Annahmen dieses Tests:
- Die Bevölkerungsverteilung ist normal und
- Stichproben sind zufällig und unabhängig.
- Homogenität der Stichprobenvarianz.
6. Einweg-ANOVA und Zweiweg-ANOVA sind Typen.
7. F-Statistik = Varianz zwischen den Stichprobenmitteln / Varianz innerhalb der Stichprobe
Chi-Quadrat-Test
1. Es ist ein nicht-parametrischer Test des Hypothesentests.
2. Als nicht parametrischer Test, Chi-Quadrat kann verwendet werden:
- Eignungstest.
- als Test der Unabhängigkeit zweier Variablen.
3. Hilft bei der Bewertung der Übereinstimmung zwischen einer Reihe von theoretisch beobachteten und erwarteten.
4. Vergleich zwischen erwarteten Häufigkeiten und beobachteten Häufigkeiten.
5. Je größer der Unterschied, je größer der Chi-Quadrat-Wert.
6. Wenn kein Unterschied zwischen den erwarteten und den beobachteten Häufigkeiten besteht, dann ist der Chi-Quadrat-Wert gleich Null.
7. Es ist auch als bekannt „Eignungstest“ die bestimmt, ob eine bestimmte Verteilung zu den beobachteten Daten passt oder nicht.
8. Es wird berechnet als:
9. Das Chi-Quadrat wird auch verwendet, um die Unabhängigkeit zweier Variablen zu testen.
10. Bedingungen für den Chi-Quadrat-Test:
- Sammeln und notieren Sie zufällige Beobachtungen.
- In der Probe, alle Entitäten müssen unabhängig sein.
- Keine Gruppe sollte sehr wenige Elemente enthalten, sagen wir weniger als 10.
- Die relativ große Gesamtanzahl der Artikel. Normalerweise, sollte mindestens sein 50, egal wie klein die anzahl der gruppen ist.
11. Chi-Quadrat als parametrischer Test wird als Test für die Populationsvarianz basierend auf der Stichprobenvarianz verwendet.
12. Wenn wir jede aus einer Sammlung von Stichprobenvarianzen nehmen, Wir dividieren sie durch die bekannte Populationsvarianz und multiplizieren diese Verhältnisse mit (n-1), wobei n die Anzahl der Elemente in der Stichprobe bedeutet, wir erhalten die Chi-Quadrat-Werte.
13. Es wird berechnet als:
Mann-Whitney U-Test
1. Es ist ein nicht-parametrischer Test des Hypothesentests.
2. Dieser Test wird verwendet, um zu untersuchen, ob zwei unabhängige Stichproben aus einer Grundgesamtheit mit der gleichen Verteilung ausgewählt wurden..
3. Er ist ein echtes nichtparametrisches Gegenstück zum T-Test und liefert die genauesten Signifikanzschätzungen., insbesondere wenn die Stichprobengrößen klein sind und die Grundgesamtheit keine Normalverteilung aufweist.
4. Es basiert auf dem Vergleich jeder Beobachtung in der ersten Stichprobe mit jeder Beobachtung in der anderen Stichprobe.
5. Die hier verwendete Teststatistik ist „U“.
6. Der Höchstwert von „U“ es ist ‚n1*Norden2‚y el valor mínimo es cero.
7. Es ist auch bekannt als:
- Mann-Whitney Wilcoxon-Test.
- Mann-Whitney Wilcoxon Reichweitentest.
8. Mathematisch, U ist gegeben durch:
U1 = R1 – n1(Norden1+1) / 2
wo1 ist die Stichprobengröße für die Stichprobe 1, y R1 ist die Summe der Ränge in der Stichprobe 1.
U2 = R2 – n2(Norden2+1) / 2
Wenn Sie die Signifikanztabellen konsultieren, die kleinsten Werte von U1 Und Sie2 Sie sind gebraucht. Die Summe zweier Werte ist gegeben durch,
U1 + U2 = {R1 – n1(Norden1+1) / 2} + {R2 – n2(Norden2+1) / 2}
Zu wissen, dass R1+ R2 = N (n + 1) / 2 und N = n1+ n2, und etwas Algebra machen, Wir finden, dass die Summe ist:
U1 + U2 = n1*Norden2
Kruskal-Wallis H-Test
1. Es ist ein nicht-parametrischer Test des Hypothesentests.
2. Dieser Test wird verwendet, um zwei oder mehr unabhängige Stichproben gleicher oder unterschiedlicher Stichprobengrößen zu vergleichen.
3. Verlängert den Mann-Whitney-U-Test, die verwendet wird, um nur zwei Gruppen zu vergleichen.
4. Die Einweg-ANOVA ist das parametrische Äquivalent dieses Tests. Und deshalb ist es auch bekannt als ‚Einweg-ANOVA in Bereichen.
5. Verwenden Sie Bereiche anstelle von tatsächlichen Daten.
6. Es wird nicht davon ausgegangen, dass die Grundgesamtheit normalverteilt ist.
7. Die hier verwendete Teststatistik ist „h“.
Damit ist die heutige Diskussion abgeschlossen!!
Abschließende Anmerkungen
Danke fürs Lesen!
Ich hoffe, Ihnen hat der Artikel gefallen und Sie haben Ihr Wissen über statistische Tests zum Testen von Hypothesen in der Statistik erweitert.
Zögern Sie nicht, mich zu kontaktieren Über Email
Alles was nicht erwähnt wurde oder du deine Gedanken teilen möchtest? Fühlen Sie sich frei, unten einen Kommentar zu hinterlassen und ich melde mich bei Ihnen.
Für die restlichen Artikel, Frag die Verknüpfung.
Über den Autor
Aashi Goyal
Heutzutage, Ich studiere meinen Bachelor of Technology (B.Tech) in Elektro- und Nachrichtentechnik von Universidad Guru Jambheshwar (GJU), Hisar. Ich bin sehr gespannt auf die Statistik, maschinelles Lernen und tiefes LernenTiefes Lernen, Eine Teildisziplin der Künstlichen Intelligenz, verlässt sich auf künstliche neuronale Netze, um große Datenmengen zu analysieren und zu verarbeiten. Diese Technik ermöglicht es Maschinen, Muster zu lernen und komplexe Aufgaben auszuführen, wie Spracherkennung und Computer Vision. Seine Fähigkeit, sich kontinuierlich zu verbessern, wenn mehr Daten zur Verfügung gestellt werden, macht es zu einem wichtigen Werkzeug in verschiedenen Branchen, von Gesundheit....
Die in diesem Artikel gezeigten Medien sind nicht Eigentum von DataPeaker und werden nach Ermessen des Autors verwendet.