Kontinuierliche Wahrscheinlichkeitsverteilungen für Data Science

Teilen auf Facebook
Teilen auf twittern
Teilen auf verlinktin
Teilen auf Telegramm
Teilen auf WhatsApp

Inhalt

Dieser Artikel wurde im Rahmen der Data Science Blogathon.

Einführung

Im vorherigen Beitrag, wir definieren die Wahrscheinlichkeitsverteilungen und diskutieren kurz die verschiedenen diskreten Wahrscheinlichkeitsverteilungen. In diesem Beitrag, wir werden weiterhin über Wahrscheinlichkeitsverteilungen durch kontinuierliche Wahrscheinlichkeitsverteilungen lernen.

Definition

Wenn Sie sich an unsere vorherige Diskussion erinnern, kontinuierliche Zufallsvariablen können in einem bestimmten Intervall unendlich viele Werte annehmen. Zum Beispiel, im Intervall [2, 3] es liegen unendliche Werte dazwischen 2 Ja 3. Stetige Verteilungen werden durch die Wahrscheinlichkeitsdichtefunktionen definiert (PDF) statt Wahrscheinlichkeitsmassenfunktionen. Die Wahrscheinlichkeit, dass eine stetige Zufallsvariable einem exakten Wert entspricht, ist immer Null. Stetige Wahrscheinlichkeiten werden über ein Intervall definiert. Zum Beispiel, P (X = 3) = 0 aber P (2.99 <x <3.01) kann durch Integration der PDF über das Intervall berechnet werden [2.99, 3.01]

Liste stetiger Wahrscheinlichkeitsverteilungen

Dann, wir analysieren die am häufigsten verwendeten stetigen Wahrscheinlichkeitsverteilungen:

1. Kontinuierliche Gleichverteilung

Die gleichmäßige Verteilung hat sowohl kontinuierliche als auch diskrete Formen. Hier, wir diskutieren das Kontinuum. Diese Verteilung stellt die Zufallsvariablen dar, deren Werte mit gleicher Wahrscheinlichkeit auftreten. Das häufigste Beispiel ist ein fairer Würfel. Hier, das 6 Ergebnisse sind genauso wahrscheinlich. Deswegen, die Wahrscheinlichkeit ist konstant.

Betrachten Sie das Beispiel mit a = 10 und b = 20, das Layout sieht so aus:

70988uniform_graph-2106269

Das PDF wird zur Verfügung gestellt von,

11733uniform_pmf-2459778

wobei a der Minimalwert und b der Maximalwert ist.

2. Normalverteilung

Dies ist die am meisten diskutierte und am häufigsten gefundene Verteilung in der realen Welt.. Viele kontinuierliche Verteilungen erreichen bei einer ausreichend großen Stichprobe oft eine Normalverteilung. Dies hat zwei Parameter, nämlich, die Standardabweichung und der Mittelwert.

Diese Verteilung hat viele interessante Eigenschaften. Der Mittelwert hat die höchste Wahrscheinlichkeit und alle anderen Werte sind auf beiden Seiten des Mittelwerts symmetrisch gleich verteilt. Die Standardnormalverteilung ist ein Sonderfall, bei dem der Mittelwert 0 und die Standardabweichung von 1.

26971herunterladen-5747377

Es folgt auch die empirische Formel, dass die 68% der Werte sind bei 1 Abstand Standardabweichung, das 95% Prozent davon sind 2 Abstandsstandardabweichungen und die 99,7% sind zu 3 Standardabweichungen vom Mittelwert. Diese Eigenschaft ist sehr nützlich, wenn Sie Hypothesentests entwerfen (https://www.statisticshowto.com/probability-and-statistics/hypothesis-testing/).

Das PDF wird zur Verfügung gestellt von,

52226normal_pmf-2077926

wobei μ der Mittelwert der Zufallsvariablen X und σ die Standardabweichung ist.

3. Logarithmische Normalverteilung

Diese Verteilung wird verwendet, um die Zufallsvariablen grafisch darzustellen, deren Log-Werte einer Normalverteilung folgen.. Betrachten Sie die Zufallsvariablen X und Y. Y = ln (x) ist die Variable, die in dieser Verteilung dargestellt wird, wobei ln den natürlichen Logarithmus der Werte von X . bezeichnet.

15552lognormal_graph-9874936

Das PDF wird zur Verfügung gestellt von,

59025lognormal_pmf-8145975

wobei μ der Mittelwert von Y und σ die Standardabweichung von Y . ist.

4. t-Verteilung des Schülers

Die Student-t-Verteilung ähnelt der Normalverteilung. Der Unterschied besteht darin, dass die Ausläufer der Verteilung dicker sind. Wird verwendet, wenn die Stichprobengröße klein ist und die Varianz der Grundgesamtheit unbekannt ist. Diese Verteilung ist definiert durch die Freiheitsgrade (P) die als Stichprobenumfang minus . berechnet werden 1 (n – 1).

Mit zunehmender Stichprobengröße, Freiheitsgrade erhöhen sich, die t-Verteilung nähert sich der Normalverteilung und die Ausläufer werden schmaler und die Kurve nähert sich dem Mittelwert. Diese Verteilung wird verwendet, um Schätzungen des Grundgesamtheitsmittels zu testen, wenn die Stichprobengröße kleiner als ist 30 und die Populationsvarianz ist unbekannt. Abweichung / Die Standardabweichung der Stichprobe wird verwendet, um den t-Wert zu berechnen.

72536t_graph-4275377

Das PDF wird zur Verfügung gestellt von,

49862t_value_distribution-3124713

wobei p die Freiheitsgrade und Γ die Gammafunktion sind. Unter diesem Link finden Sie eine kurze Beschreibung der Gamma-Funktion.

Die im Hypothesentest verwendete t-Statistik wird wie folgt berechnet,

19058t-Wert-3082773

wobei x̄ der Stichprobenmittelwert ist, μ ist der Mittelwert der Grundgesamtheit und s ist die Stichprobenvarianz.

5. Chi-Quadrat-Verteilung

Diese Verteilung ist gleich der Summe der Quadrate von p normalen Zufallsvariablen. p ist die Anzahl der Freiheitsgrade. Wie die t-Verteilung, mit zunehmenden Freiheitsgraden, die Verteilung nähert sich allmählich der Normalverteilung. Unten ist eine Chi-Quadrat-Verteilung mit drei Freiheitsgraden.

76862chi_square-6722992

Das PDF wird zur Verfügung gestellt von,

35020Chi-Quadrat-3987211

wobei p die Freiheitsgrade und Γ die Gammafunktion sind.

Der Chi-Quadrat-Wert wird wie folgt berechnet:

79033Chi-Quadrat-Wert-1100288

wobei o der beobachtete Wert und E der erwartete Wert ist. Dies wird bei Hypothesentests verwendet, um Rückschlüsse auf die Populationsvarianz der Normalverteilungen zu ziehen..

6. Exponentialverteilung

Erinnern Sie sich an die diskrete Wahrscheinlichkeitsverteilung, die wir im Beitrag zur diskreten Wahrscheinlichkeit besprochen haben. In der Poisson-Verteilung, Nehmen wir das Beispiel von Anrufen, die beim Kundenservice-Center eingehen. In diesem Beispiel, wir betrachten die durchschnittliche Anzahl der Anrufe pro Stunde. Jetzt, in dieser Verteilung, die Zeit zwischen aufeinanderfolgenden Anrufen wird erklärt.

62946exponentiell-8282674

Die Exponentialverteilung kann als Umkehrung der Poisson-Verteilung betrachtet werden. Die betrachteten Ereignisse sind unabhängig voneinander.

Das PDF wird zur Verfügung gestellt von,

18189exponentiellpmf-2512169

wobei λ der Geschwindigkeitsparameter ist. = 1 / (mittlere Zeit zwischen den Ereignissen).

Fertigstellen, wir haben in diesem Beitrag sehr kurz verschiedene stetige Wahrscheinlichkeitsverteilungen diskutiert. Fühlen Sie sich frei, Kommentare oder Vorschläge unten hinzuzufügen.

Über mich

Soja Priyanka Madiraju, ein ehemaliger Software-Ingenieur, der an der Umstellung auf Data Science arbeitet. Ich bin Masterstudent in Data Science. Melde dich gerne bei mir unter https://www.linkedin.com/in/priyanka-madiraju

Die in diesem Artikel gezeigten Medien sind nicht Eigentum von DataPeaker und werden nach Ermessen des Autors verwendet.

Abonniere unseren Newsletter

Wir senden Ihnen keine SPAM-Mail. Wir hassen es genauso wie du.