Was ist Asymmetrie in der Statistik??

Inhalt

Überblick

  • Schiefe ist ein statistisches Schlüsselkonzept, das Sie in den Bereichen Data Science und Analytics kennen sollten..
  • Erfahren Sie, was Asymmetrie ist und warum sie für Sie als Data Science-Experte wichtig ist

Einführung

Das Konzept der Asymmetrie ist in unserer Denkweise verankert. Wenn wir uns eine Visualisierung ansehen, unser Verstand erkennt intuitiv das Muster in diesem Diagramm.

Wie du bereits weißt, Indien hat mehr als 50% seiner Bevölkerung weniger als 25 Jahre und mehr als 65% weniger als 35 Jahre. Wenn Sie die Altersverteilung der Bevölkerung von Indien auftragen, Sie werden feststellen, dass sich auf der linken Seite des Timings ein Buckel befindet und die rechte Seite vergleichsweise flach ist. Mit anderen Worten, Wir können sagen, dass es eine Tendenz zum Ende gibt, Wahrheit?

Dann, auch wenn Sie als Data Science- oder Analytics-Profi noch nichts über Schiefe gelesen haben, Sie haben definitiv informell mit dem Konzept interagiert. Und es ist eigentlich ein ganz einfaches Thema in Statistik und, aber trotzdem, viele Leute lesen es in ihrer Eile, um andere scheinbar komplexe Data Science-Konzepte zu lernen. Für mich, Das ist ein Fehler.

Featured_image-2220139

Schiefe ist ein grundlegendes statistisches Konzept, das jeder in der Datenwissenschaft und Analytik kennen sollte.. Es ist etwas, vor dem wir einfach nicht weglaufen können. Und ich bin sicher, Sie werden es am Ende dieses Artikels verstehen..

Hier, Wir werden das Konzept der Asymmetrie auf die einfachste Weise diskutieren. Sie werden etwas über Asymmetrie lernen, ihre Typen und ihre Bedeutung im Bereich Data Science. Schnallen Sie sich also an, denn Sie lernen ein Konzept, das Sie während Ihrer gesamten Karriere in der Datenwissenschaft schätzen werden..

Notiz: Hier sind einige Ressourcen, die Ihnen helfen, tiefer in die Welt der Statistik für Data Science einzutauchen.:

Inhaltsverzeichnis

  • Was ist Asymmetrie??
  • Warum ist Asymmetrie wichtig?
  • Was ist eine Normalverteilung?
  • Die positiv schiefe Verteilung verstehen
  • Die negativ schiefe Verteilung verstehen

Was ist Asymmetrie??

Die Schiefe ist das Maß für die Schiefe einer ideal symmetrischen Wahrscheinlichkeitsverteilung und ist gegeben durch drittes standardisiertes Moment. Wenn das zu komplex klingt, mach dir keine Sorgen! Lass es mich für dich aufschlüsseln.

In einfachen Worten, Schiefe ist das Maß dafür, wie stark die Wahrscheinlichkeitsverteilung einer Zufallsvariablen von der Normalverteilung. Jetzt, Ich denke vielleicht: Warum rede ich hier von Normalverteilung?

Gut, die Normalverteilung ist die Wahrscheinlichkeitsverteilung ohne Verzerrung. Sie können das Bild unten sehen, das eine symmetrische Verteilung zeigt, die im Grunde eine Normalverteilung ist, und Sie können sehen, dass sie auf beiden Seiten der gestrichelten Linie symmetrisch ist. Abgesehen davon, Es gibt zwei Arten von Asymmetrien:

  • Positive Voreingenommenheit
  • Negativer Versatz
sk1-4508172

Credits: Wikipedia

Die Wahrscheinlichkeitsverteilung mit dem Schwanz auf der rechten Seite ist eine positiv schiefe Verteilung und die mit dem Schwanz auf der linken Seite ist eine negativ schiefe Verteilung.. Wenn Sie die obigen Zahlen verwirren, es ist okay. Wir werden dies später genauer verstehen..

Davor, Lassen Sie uns verstehen, warum Skew für Sie als Data Science-Experte ein so wichtiges Konzept ist.

Warum ist Asymmetrie wichtig?

Jetzt, wir wissen, dass die Schiefe das Maß für die Schiefe ist und ihre Typen werden durch die Seite unterschieden, auf der sich der Schwanz der Wahrscheinlichkeitsverteilung befindet. Aber, Warum ist es wichtig, die Schiefe der Daten zu kennen??

Zuerst, lineare Modelle arbeiten unter der Annahme, dass die Verteilung der unabhängigen Variablen und der Zielvariablen ähnlich ist. Deswegen, Die Kenntnis der Schiefe der Daten hilft uns, bessere lineare Modelle zu erstellen.

Zweitens, Schauen wir uns die folgende Verteilung an. Es ist die PS-Verteilung von Automobilen:

sk2-7118031

Man sieht deutlich, dass die obige Verteilung positiv verzerrt ist. Jetzt, Nehmen wir an, Sie möchten dies als Funktion für das Modell verwenden, das Meilen pro Gallone vorhersagt (Meilen pro Gallone) eines Autos.

Da unsere Daten hier positiv verzerrt sind, bedeutet, dass Sie eine größere Anzahl von Datenpunkten mit niedrigen Werten haben, nämlich, Autos mit weniger PS. Dann, wenn wir unser Modell mit diesen Daten trainieren, wird bei der Vorhersage der Meilen pro Gallone von Autos mit geringerer PS-Leistung im Vergleich zu Fahrzeugen mit höherer PS-Leistung besser abschneiden.

Was ist mehr, Asymmetrie sagt uns über die Richtung von Atypische Werte. Sie können sehen, dass unsere Verteilung positiv verzerrt ist und die meisten Ausreißer auf der rechten Seite der Verteilung vorhanden sind..

Notiz: Schiefe sagt nichts über die Anzahl der Ausreißer aus. Es sagt uns nur die Adresse.

Jetzt wissen wir, warum Schiefe wichtig ist, Lass uns die Verteilungen verstehen, die ich dir vorhin gezeigt habe.

Was ist symmetrische Verteilung? / normal?

sk3-9644395

Credits: Wikipedia

Jawohl, wir kehren wieder mit der Normalverteilung zurück. Es wird als Referenz verwendet, um die Schiefe einer Verteilung zu bestimmen. Wie ich bereits erwähnte, die ideale Normalverteilung ist die Wahrscheinlichkeitsverteilung ohne Schiefe. Es ist fast perfekt symmetrisch. Aus diesem Grund, der Schiefewert für eine Normalverteilung ist null.

Aber, Warum ist es fast perfekt symmetrisch und nicht absolut symmetrisch??

Das ist, weil, in Wirklichkeit, keine tatsächlichen Wortdaten haben eine vollkommen normale Verteilung. Deswegen, selbst der Asymmetriewert ist nicht genau null; es ist fast null. Obwohl der Wert Null als Referenz verwendet wird, um die Schiefe einer Verteilung zu bestimmen.

Sie können im obigen Bild sehen, dass dieselbe Linie den Mittelwert darstellt, Median und Modus. Es liegt daran, dass der Durchschnitt, Median und Modus einer vollkommen normalen Verteilung sind gleich.

Bis jetzt, wir haben die Schiefe der Normalverteilung mit einer Wahrscheinlichkeits- oder Häufigkeitsverteilung verstanden. Jetzt, Lassen Sie uns dies in Form eines Boxplots verstehen, da dies die gebräuchlichste Art ist, eine Verteilung im datenwissenschaftlichen Raum zu betrachten.

sk6-1881560

Das obige Bild ist ein symmetrischer Verteilerkastenplot. Sie werden hier feststellen, dass der Abstand zwischen Q1 und Q2 und Q2 und Q3 gleich ist, nämlich:

sk7-4653667

Dies reicht jedoch nicht aus, um zu entscheiden, ob eine Verteilung verzerrt ist oder nicht.. Wir werfen auch einen Blick auf die Länge des Schnurrbartes; wenn sie gleich sind, dann können wir sagen, dass die Verteilung symmetrisch ist, nämlich, ist nicht voreingenommen.

Nachdem wir nun die Schiefe in der Normalverteilung besprochen haben, Es ist an der Zeit, etwas über die beiden Arten von Asymmetrie zu lernen, die wir zuvor besprochen haben. Beginnen wir mit positiver Schiefe.

Die positiv schiefe Verteilung verstehen

sk4-6760864

Quelle: Wikipedia

Eine positiv schiefe Verteilung ist die Verteilung mit dem Schwanz auf der rechten Seite.. Der Schiefewert für eine positiv schiefe Verteilung ist größer als Null. Wie Sie beim Betrachten der Abbildung verstanden haben werden, der Mittelwert ist der größte, gefolgt vom Median und dann dem Modus.

Dann, Warum passiert dies?

Gut, die Antwort darauf ist, dass die Schiefe der Verteilung nach rechts ist; macht den Mittelwert größer als den Median und bewegt sich schließlich nach rechts. Was ist mehr, die Mode tritt bei der höchsten Frequenz der Verteilung auf, die auf der linken Seite des Medians liegt. Deswegen, Mode <Median <Medien.

sk8-4791198

Im Boxplot oben, Sie können sehen, dass Q2 näher an Q1 vorhanden ist. Dies stellt eine positiv schiefe Verteilung dar. In Bezug auf Quartile, kann gegeben werden von:

sk9-4225069

In diesem Fall, Es war sehr einfach zu wissen, ob die Daten verzerrt sind oder nicht. Aber, Was ist, wenn wir so etwas haben?

sk10-2273723

Hier, Q2-Q1 und Q3-Q2 sind gleich und, aber trotzdem, die Verteilung ist positiv verzerrt. Die aufmerksamsten werden bemerkt haben, dass der rechte Schnurrbart länger ist als der linke. Davon, Wir können daraus schließen, dass die Daten positiv verzerrt sind.

Dann, der erste Schritt ist immer, die Gleichheit von Q2-Q1 und Q3-Q2 zu überprüfen. Wenn es das gleiche ist, wir suchen die Länge der Schnurrhaare.

Die negativ schiefe Verteilung verstehen

sk5-7632383

Quelle: Wikipedia

Wie Sie vielleicht schon erraten haben, eine negativ schiefe Verteilung ist die Verteilung mit dem Schwanz auf der linken Seite. Der Schiefewert für eine negativ schiefe Verteilung ist kleiner als Null. Sie können aus der obigen Abbildung auch sehen, dass die Medien <Median <Mode.

sk11-6047787

Im Boxplot, die Beziehung zwischen den Quartilen für eine negative Schiefe ist gegeben durch:

sk12-1879096

Ähnlich wie wir es vorher gemacht haben, wenn Q3-Q2 und Q2-Q1 gleich sind, dann suchen wir nach der Länge der Schnurrhaare. Und wenn der linke Schnurrbart länger ist als der rechte, dann können wir sagen, dass die Daten negativ verzerrt sind.

sk13-8221419

Wie transformieren wir verzerrte Daten??

Da Sie wissen, wie stark verzerrte Daten die Vorhersagefähigkeiten unseres Modells für maschinelles Lernen beeinflussen können, es ist besser, verzerrte Daten in normalverteilte Daten umzuwandeln. Hier sind einige der Möglichkeiten, wie Sie Ihre verzerrten Daten transformieren können:

  • Leistungstransformation
  • Datensatztransformation
  • Exponentielle Transformation

Notiz: Die Auswahl der Transformation hängt von den statistischen Eigenschaften der Daten ab.

Abschließende Anmerkungen

In diesem Artikel, Wir behandeln den Begriff der Asymmetrie, seine Typen und warum es im Bereich Data Science wichtig ist. Wir sprechen über Asymmetrie auf der konzeptionellen Ebene, aber wenn du tiefer gehen willst, Sie können den mathematischen Teil als nächsten Schritt erkunden.

Was ist mehr, Sie können Artikel zu anderen wichtigen statistischen Themen lesen:

Kontaktieren Sie mich im Kommentarbereich unten, wenn Sie Fragen haben.

Abonniere unseren Newsletter

Wir senden Ihnen keine SPAM-Mail. Wir hassen es genauso wie du.