Big Data

“Leistungsanalyse | Statistik für Anfänger

Dieser Artikel wurde im Rahmen der Data Science Blogathon.

Einführung

Wie viele Daten reichen aus, um statistische Signifikanz zu ermitteln?? Mit anderen Worten, Was sollte die optimale Stichprobengröße sein?? Häufig, Es ist nicht unbedingt möglich, das statistische Experiment mehrmals durchzuführen, um eine ausreichende Leistung zu gewährleisten. Zur selben Zeit, Unser Modell für maschinelles Lernen ist möglicherweise statistisch nicht schlüssig, wenn wir keine geeignete Stichprobengröße haben.

Lassen Sie uns zuerst die statistische Stärke im Detail analysieren.

Statistische Macht eines Hypothesentests impliziert die Wahrscheinlichkeit, einen Effekt zu entdecken, da gibt es einen wahren effekt. Es ist die Konfidenz, die aus den Ergebnissen einer Studie abgeleitet wird und in umgekehrter Beziehung zum Typfehler steht 2.

Beachten Sie, dass der Typfehler 2 ist falsch negativ, wenn wir die falschen Nullhypothesen nicht ablehnen.

In diesem Punkt, Es ist wichtig zu verstehen, was die Nullhypothese ist? Es ist ein statistischer Hypothesentest, der ein Ergebnis annimmt. Zum Beispiel, die Nullhypothese in der KS-Statistik impliziert, dass die beiden Populationen zu einer ähnlichen Verteilung gehören.

Quelle: Wiki mit Ergänzungen des Autors

Es ist wichtig, in der obigen Abbildung zu beachten, dass je höher die Trennschärfe eines Tests, kleiner ist das β, nämlich, der typfehler 2

Wie die niedrigste statistische Power eines Experiments zu ungültigen Schlussfolgerungen über das Ergebnis führt, Sie möchten, dass Ihre Experimente eine minimale Leistungsschwelle haben. Allgemein, es wird voraussichtlich von 80% oder mehr. Ein Kraftpaket von 80% bedeutet, es gibt a 80% Wahrscheinlichkeit, einen vorhandenen Effekt zu entdecken (Ja, zur selben Zeit, ein 20% Wahrscheinlichkeit, einen Typfehler zu beobachten 2).

Leistungsanalyse:

Jetzt ist es an der Zeit, ein größeres Bild zu sehen, nämlich, die Potenzanalyse, die von vier verwandten Variablen abhängt, wie unten erwähnt:

1) Effektgröße: desto prominenter sind die Daten, kleiner ist der zufällige Fehler.

2) Probengröße: eine größere Stichprobengröße hilft, kleinere Effekte zu erkennen

3) Signifikanzniveau: ein

4) Statistische Macht

Die vier Variablen sind miteinander verknüpft und die Änderung einer Variablen wirkt sich auf die restlichen Variablen aus.

Die Poweranalyse ist der Prozess der Schätzung eines der 4 Variablen gegebene Werte für 3 Variablen. Wird häufig verwendet, um die minimale Stichprobengröße für die Durchführung eines Experiments abzuschätzen.

Wenn wir die Stichprobengröße erhöhen, wir können auch die kleinen effekte erkennen, allerdings auf Kosten der mehrfachen Durchführung statistischer Experimente. Sogar dann, Es kommt ein Punkt, an dem das Hinzufügen weiterer Daten die Leistung nicht mehr erhöht.

Beachten Sie, dass es durchaus möglich ist, dass die Stichprobe, mit der wir arbeiten, den Effekt nicht erfasst, selbst wenn er in der Grundgesamtheit vorhanden ist. Dies wird größtenteils auf Stichprobenfehler zurückgeführt, wenn die Stichprobe nicht repräsentativ für die Grundgesamtheit ist..

Die Leistungsanalyse wird auch verwendet, um die Ergebnisse und Erkenntnisse des Experiments zu überprüfen und zu validieren.. Zum Beispiel, wenn wir die Effektstärke angeben, Stichprobengröße und Signifikanzniveau, können wir die Trennschärfe eines Experiments berechnen, um zu überprüfen, ob die Wahrscheinlichkeit des Typfehlers 2 liegt in einem akzeptablen Bereich.

Entsprechend Dokumentation, Wir können jedes Problem lösen 4 Parameter in einem unabhängigen T-Test von 2 Proben:

Quelle: Autor

Wir können auch verwenden Leistungskurven zeichnen um zu überprüfen, wie eine Variation der Effektgröße und unterschiedlicher Stichprobengrößen die Trennschärfe des Experiments bei einem gegebenen Signifikanzniveau verändern.