Qu'est-ce que l'asymétrie dans les statistiques?

Contenu

Vue d'ensemble

  • L'asymétrie est un concept statistique clé que vous devez connaître dans les domaines de la science des données et de l'analyse..
  • Découvrez ce qu'est l'asymétrie et pourquoi c'est important pour vous en tant que professionnel de la science des données

introduction

Le concept d'asymétrie est ancré dans notre façon de penser. Lorsque nous regardons une visualisation, notre esprit discerne intuitivement le motif sur ce graphique.

Comme tu le sais déjà, L'Inde a plus de 50% de sa population moins de 25 ans et plus de 65% moins que 35 ans. Si vous tracez la répartition par âge de la population de l'Inde, vous constaterez qu'il y a une bosse sur le côté gauche de la synchronisation et le côté droit est relativement plat. En d'autres termes, on peut dire qu'il y a un biais vers la fin, vérité?

Ensuite, même si vous n'avez pas lu sur l'asymétrie en tant que professionnel de la science des données ou de l'analyse, vous avez certainement interagi avec le concept sur une note informelle. Et c'est en fait un sujet assez facile en statistiques et, cependant, beaucoup de gens le lisent dans leur précipitation pour apprendre d'autres concepts de science des données apparemment complexes. Pour moi, C'est une erreur.

Featured_image-2220139

L'asymétrie est un concept statistique fondamental que tout le monde en science et analyse des données devrait connaître.. C'est quelque chose que nous ne pouvons tout simplement pas fuir. Et je suis sûr que vous comprendrez à la fin de cet article..

Ici, nous allons discuter du concept d'asymétrie de la manière la plus simple possible. Vous en apprendrez plus sur l'asymétrie, leurs types et leur importance dans le domaine de la science des données. Alors attachez votre ceinture car vous apprendrez un concept que vous apprécierez tout au long de votre carrière en science des données..

Noter: Voici quelques ressources pour vous aider à approfondir le monde des statistiques pour la science des données.:

Table des matières

  • Qu'est-ce que l'asymétrie?
  • Pourquoi l'asymétrie est-elle importante?
  • Qu'est-ce qu'une distribution normale?
  • Comprendre la distribution positivement asymétrique
  • Comprendre la distribution asymétrique négative

Qu'est-ce que l'asymétrie?

L'asymétrie est la mesure de l'asymétrie d'une distribution de probabilité idéalement symétrique et est donnée par troisième moment normalisé. Si cela semble trop complexe, ne t'en fais pas! Laissez-moi vous expliquer.

En mots simples, l'asymétrie est la mesure de combien la distribution de probabilité d'une variable aléatoire s'écarte de la distribution normale. À présent, je pense peut-être: Pourquoi je parle de distribution normale ici?

Bon, la distribution normale est la distribution de probabilité sans aucun biais. Vous pouvez voir l'image ci-dessous qui montre une distribution symétrique qui est fondamentalement une distribution normale et vous pouvez voir qu'elle est symétrique des deux côtés de la ligne pointillée. A part ça, il existe deux types d'asymétrie:

  • Biais positif
  • Asymétrie négative
sk1-4508172

Crédits: Wikipédia

La distribution de probabilité avec sa queue à droite est une distribution positivement asymétrique et celle avec sa queue à gauche est une distribution négativement asymétrique.. Si vous trouvez les chiffres ci-dessus confus, c'est bien. Nous comprendrons cela plus en détail plus tard..

Avant que, Comprenons pourquoi l'asymétrie est un concept si important pour vous en tant que professionnel de la science des données.

Pourquoi l'asymétrie est-elle importante?

À présent, on sait que l'asymétrie est la mesure de l'asymétrie et ses types se distinguent par le côté sur lequel se situe la queue de la distribution de probabilité. Mais, Pourquoi est-il important de connaître l'asymétrie des données?

Premier, les modèles linéaires fonctionnent sous l'hypothèse que la distribution de la variable indépendante et de la variable cible sont similaires. Donc, connaître l'asymétrie des données nous aide à créer de meilleurs modèles linéaires.

En second lieu, examinons la distribution suivante. C'est la distribution de puissance des automobiles:

sk2-7118031

Vous pouvez clairement voir que la distribution ci-dessus est positivement asymétrique. À présent, disons que vous voulez l'utiliser comme fonction pour le modèle qui prédit les miles par gallon (miles par gallon) d'une voiture.

Puisque nos données sont positivement biaisées ici, signifie que vous avez un plus grand nombre de points de données avec des valeurs faibles, c'est-à-dire, voitures avec moins de puissance. Ensuite, lorsque nous entraînons notre modèle avec ces données, permettra de mieux prédire les miles par gallon de voitures avec une puissance inférieure par rapport à celles avec une puissance plus élevée.

En outre, l'asymétrie nous renseigne sur la direction de Valeurs atypiques. Vous pouvez voir que notre distribution est positivement asymétrique et que la plupart des valeurs aberrantes sont présentes sur le côté droit de la distribution..

Noter: L'asymétrie ne nous dit pas sur le nombre de valeurs aberrantes. Il nous dit seulement l'adresse.

Maintenant que nous savons pourquoi l'asymétrie est importante, comprenons les distributions que je vous ai montrées plus tôt.

Qu'est-ce que la distribution symétrique / Ordinaire?

sk3-9644395

Crédits: Wikipédia

Oui, nous revenons à nouveau avec la distribution normale. Il est utilisé comme référence pour déterminer l'asymétrie d'une distribution. Comme je l'ai mentionné précédemment, la distribution normale idéale est la distribution de probabilité avec presque aucune asymétrie. C'est presque parfaitement symétrique. À cause de, la valeur d'asymétrie pour une distribution normale est de zéro.

Mais, Pourquoi est-il presque parfaitement symétrique et pas absolument symétrique?

C'est parce que, en réalité, aucune donnée de mot réelle n'a une distribution parfaitement normale. Donc, même la valeur d'asymétrie n'est pas exactement nulle; c'est presque zéro. Bien que la valeur zéro soit utilisée comme référence pour déterminer l'asymétrie d'une distribution.

Vous pouvez voir dans l'image ci-dessus que la même ligne représente la moyenne, médiane et mode. C'est parce que la moyenne, la médiane et le mode d'une distribution parfaitement normale sont égaux.

Jusqu'à maintenant, nous avons compris l'asymétrie de la distribution normale en utilisant une distribution de probabilité ou de fréquence. À présent, comprenons cela en termes de boîte à moustaches, car c'est la façon la plus courante de considérer une distribution dans l'espace de la science des données.

sk6-1881560

L'image ci-dessus est une boîte à moustaches de distribution symétrique. Vous remarquerez ici que la distance entre Q1 et Q2 et Q2 et Q3 est égale, c'est-à-dire:

sk7-4653667

Mais cela ne suffit pas pour conclure si une distribution est asymétrique ou non.. On regarde aussi la longueur de la moustache; si ce sont les mêmes, alors on peut dire que la distribution est symétrique, c'est-à-dire, n'est pas biaisé.

Maintenant que nous avons discuté de l'asymétrie dans la distribution normale, il est temps de se renseigner sur les deux types d'asymétrie dont nous avons parlé plus tôt. Commençons par l'asymétrie positive.

Comprendre la distribution positivement asymétrique

sk4-6760864

La source: Wikipédia

Une distribution positivement asymétrique est la distribution avec la queue sur son côté droit.. La valeur d'asymétrie pour une distribution positivement asymétrique est supérieure à zéro. Comme vous l'aurez compris en regardant la figure, la valeur moyenne est la plus grande, suivi de la médiane puis du mode.

Ensuite, Pourquoi cela arrive-t-il?

Bon, la réponse à cela est que l'asymétrie de la distribution est à droite; rend la moyenne supérieure à la médiane et se déplace finalement vers la droite. En outre, le mode se produit à la fréquence la plus élevée de la distribution qui se trouve du côté gauche de la médiane. Donc, mode <médian <médias.

sk8-4791198

Dans la boîte à moustaches ci-dessus, vous pouvez voir que Q2 est présent plus près de Q1. Cela représente une distribution positivement asymétrique. En termes de quartiles, peut être donné par:

sk9-4225069

Dans ce cas, il était très facile de savoir si les données sont faussées ou non. Mais, Et si on avait quelque chose comme ça?

sk10-2273723

Ici, Q2-Q1 et Q3-Q2 sont égaux et, cependant, la distribution est positivement asymétrique. Les plus attentifs auront remarqué que la longueur de la moustache droite est supérieure à la gauche. De ce, nous pouvons conclure que les données sont biaisées positivement.

Ensuite, la première étape consiste toujours à vérifier l'égalité de Q2-Q1 et Q3-Q2. Si c'est pareil, on cherche la longueur des moustaches.

Comprendre la distribution asymétrique négative

sk5-7632383

La source: Wikipédia

Comme vous l'avez peut-être déjà deviné, une distribution négativement asymétrique est la distribution avec la queue sur son côté gauche. La valeur d'asymétrie pour une distribution négativement asymétrique est inférieure à zéro. Vous pouvez également voir sur la figure ci-dessus que le médias <médian <mode.

sk11-6047787

Dans la boîte à moustaches, la relation entre les quartiles pour une asymétrie négative est donnée par:

sk12-1879096

Semblable à ce que nous avons fait avant, si Q3-Q2 et Q2-Q1 sont égaux, puis on cherche la longueur des moustaches. Et si la longueur de la moustache gauche est supérieure à celle de la droite, alors on peut dire que les données sont biaisées négativement.

sk13-8221419

Comment transformer des données asymétriques?

Puisque vous savez à quel point les données asymétriques peuvent affecter les capacités de prédiction de notre modèle d'apprentissage automatique, il est préférable de transformer des données asymétriques en données normalement distribuées. Voici quelques-unes des façons dont vous pouvez transformer vos données asymétriques:

  • Transformation de puissance
  • Transformation d'enregistrement
  • Transformation exponentielle

Noter: Le choix de la transformation dépend des caractéristiques statistiques des données.

Remarques finales

Dans cet article, nous couvrons le concept d'asymétrie, ses types et pourquoi il est important dans le domaine de la science des données. On parle d'asymétrie au niveau conceptuel, mais si tu veux aller plus loin, vous pouvez explorer sa partie mathématique comme prochaine étape.

En outre, Vous pouvez lire des articles sur d'autres sujets statistiques importants:

Connectez-vous avec moi dans la section commentaire ci-dessous si vous avez des questions.

Abonnez-vous à notre newsletter

Nous ne vous enverrons pas de courrier SPAM. Nous le détestons autant que vous.