Dieser Artikel wurde im Rahmen der Data Science Blogathon.
Einführung
Im vorherigen Beitrag, wir definieren die Wahrscheinlichkeitsverteilungen und diskutieren kurz die verschiedenen diskreten Wahrscheinlichkeitsverteilungen. In diesem Beitrag, wir werden weiterhin über Wahrscheinlichkeitsverteilungen durch kontinuierliche Wahrscheinlichkeitsverteilungen lernen.
Definition
Wenn Sie sich an unsere vorherige Diskussion erinnern, kontinuierliche Zufallsvariablen können in einem bestimmten Intervall unendlich viele Werte annehmen. Zum Beispiel, im Intervall [2, 3] es liegen unendliche Werte dazwischen 2 Ja 3. Stetige Verteilungen werden durch die Wahrscheinlichkeitsdichtefunktionen definiert (PDF) statt Wahrscheinlichkeitsmassenfunktionen. Die Wahrscheinlichkeit, dass eine stetige Zufallsvariable einem exakten Wert entspricht, ist immer Null. Stetige Wahrscheinlichkeiten werden über ein Intervall definiert. Zum Beispiel, P (X = 3) = 0 aber P (2.99 <x <3.01) kann durch Integration der PDF über das Intervall berechnet werden [2.99, 3.01]
Liste stetiger Wahrscheinlichkeitsverteilungen
Dann, wir analysieren die am häufigsten verwendeten stetigen Wahrscheinlichkeitsverteilungen:
1. Kontinuierliche Gleichverteilung
Die gleichmäßige Verteilung hat sowohl kontinuierliche als auch diskrete Formen. Hier, wir diskutieren das Kontinuum. Diese Verteilung stellt die Zufallsvariablen dar, deren Werte mit gleicher Wahrscheinlichkeit auftreten. Das häufigste Beispiel ist ein fairer Würfel. Hier, das 6 Ergebnisse sind genauso wahrscheinlich. Deswegen, die Wahrscheinlichkeit ist konstant.
Betrachten Sie das Beispiel mit a = 10 und b = 20, das Layout sieht so aus:
Das PDF wird zur Verfügung gestellt von,
wobei a der Minimalwert und b der Maximalwert ist.
2. Normalverteilung
Dies ist die am meisten diskutierte und am häufigsten gefundene Verteilung in der realen Welt.. Viele kontinuierliche Verteilungen erreichen bei einer ausreichend großen Stichprobe oft eine Normalverteilung. Dies hat zwei Parameter, nämlich, die Standardabweichung und der Mittelwert.
Diese Verteilung hat viele interessante Eigenschaften. Der Mittelwert hat die höchste Wahrscheinlichkeit und alle anderen Werte sind auf beiden Seiten des Mittelwerts symmetrisch gleich verteilt. Die Standardnormalverteilung ist ein Sonderfall, bei dem der Mittelwert 0 und die Standardabweichung von 1.
Es folgt auch die empirische Formel, dass die 68% der Werte sind bei 1 Abstand Standardabweichung, das 95% Prozent davon sind 2 Abstandsstandardabweichungen und die 99,7% sind zu 3 Standardabweichungen vom Mittelwert. Diese Eigenschaft ist sehr nützlich, wenn Sie Hypothesentests entwerfen (https://www.statisticshowto.com/probability-and-statistics/hypothesis-testing/).
Das PDF wird zur Verfügung gestellt von,
wobei μ der Mittelwert der Zufallsvariablen X und σ die Standardabweichung ist.
3. Logarithmische Normalverteilung
Diese Verteilung wird verwendet, um die Zufallsvariablen grafisch darzustellen, deren Log-Werte einer Normalverteilung folgen.. Betrachten Sie die Zufallsvariablen X und Y. Y = ln (x) ist die Variable, die in dieser Verteilung dargestellt wird, wobei ln den natürlichen Logarithmus der Werte von X . bezeichnet.
Das PDF wird zur Verfügung gestellt von,
wobei μ der Mittelwert von Y und σ die Standardabweichung von Y . ist.
4. t-Verteilung des Schülers
Die Student-t-Verteilung ähnelt der Normalverteilung. Der Unterschied besteht darin, dass die Ausläufer der Verteilung dicker sind. Wird verwendet, wenn die Stichprobengröße klein ist und die Varianz der Grundgesamtheit unbekannt ist. Diese Verteilung ist definiert durch die Freiheitsgrade (P) die als Stichprobenumfang minus . berechnet werden 1 (n – 1).
Mit zunehmender Stichprobengröße, Freiheitsgrade erhöhen sich, die t-Verteilung nähert sich der Normalverteilung und die Ausläufer werden schmaler und die Kurve nähert sich dem Mittelwert. Diese Verteilung wird verwendet, um Schätzungen des Grundgesamtheitsmittels zu testen, wenn die Stichprobengröße kleiner als ist 30 und die Populationsvarianz ist unbekannt. Abweichung / Die Standardabweichung der Stichprobe wird verwendet, um den t-Wert zu berechnen.
Das PDF wird zur Verfügung gestellt von,
wobei p die Freiheitsgrade und Γ die Gammafunktion sind. Unter diesem Link finden Sie eine kurze Beschreibung der Gamma-Funktion.
Die im Hypothesentest verwendete t-Statistik wird wie folgt berechnet,
wobei x̄ der Stichprobenmittelwert ist, μ ist der Mittelwert der Grundgesamtheit und s ist die Stichprobenvarianz.
5. Chi-Quadrat-Verteilung
Diese Verteilung ist gleich der Summe der Quadrate von p normalen Zufallsvariablen. p ist die Anzahl der Freiheitsgrade. Wie die t-Verteilung, mit zunehmenden Freiheitsgraden, die Verteilung nähert sich allmählich der Normalverteilung. Unten ist eine Chi-Quadrat-Verteilung mit drei Freiheitsgraden.
Das PDF wird zur Verfügung gestellt von,
wobei p die Freiheitsgrade und Γ die Gammafunktion sind.
Der Chi-Quadrat-Wert wird wie folgt berechnet:
wobei o der beobachtete Wert und E der erwartete Wert ist. Dies wird bei Hypothesentests verwendet, um Rückschlüsse auf die Populationsvarianz der Normalverteilungen zu ziehen..
6. Exponentialverteilung
Erinnern Sie sich an die diskrete Wahrscheinlichkeitsverteilung, die wir im Beitrag zur diskreten Wahrscheinlichkeit besprochen haben. In der Poisson-Verteilung, Nehmen wir das Beispiel von Anrufen, die beim Kundenservice-Center eingehen. In diesem Beispiel, wir betrachten die durchschnittliche Anzahl der Anrufe pro Stunde. Jetzt, in dieser Verteilung, die Zeit zwischen aufeinanderfolgenden Anrufen wird erklärt.
Die Exponentialverteilung kann als Umkehrung der Poisson-Verteilung betrachtet werden. Die betrachteten Ereignisse sind unabhängig voneinander.
Das PDF wird zur Verfügung gestellt von,
wobei λ der Geschwindigkeitsparameter ist. = 1 / (mittlere Zeit zwischen den Ereignissen).
Fertigstellen, wir haben in diesem Beitrag sehr kurz verschiedene stetige Wahrscheinlichkeitsverteilungen diskutiert. Fühlen Sie sich frei, Kommentare oder Vorschläge unten hinzuzufügen.
Über mich
Soja Priyanka Madiraju, ein ehemaliger Software-Ingenieur, der an der Umstellung auf Data Science arbeitet. Ich bin Masterstudent in Data Science. Melde dich gerne bei mir unter https://www.linkedin.com/in/priyanka-madiraju
Die in diesem Artikel gezeigten Medien sind nicht Eigentum von DataPeaker und werden nach Ermessen des Autors verwendet.