Coefficient de corrélation de Pearson: un guide du débutant

Contenu

Cet article a été publié dans le cadre du Blogathon sur la science des données.

introduction

Prenons l'exemple de la détection du prix de la voiture où nous devons détecter le prix en tenant compte de toutes les variables qui affectent le prix de la voiture, comme la longueur de la voiture, poids à vide, la hauteur de la voiture, la largeur de la voiture, le type de carburant, le corps, La puissance, etc.

La corrélation entre les variables continues peut être trouvée en utilisant Python:

65405python_1-4438832
58044python_2-9701706

Nous pouvons voir dans le nuage de points ci-dessus, car la longueur de la voiture, le poids à vide et la largeur de la voiture augmentent, le prix de la voiture augmente aussi. Ensuite, on peut dire qu'il y a une corrélation positive entre les trois variables précédentes avec le prix de la voiture. Ici, on voit aussi qu'il n'y a pas de corrélation entre la hauteur de la voiture et le prix de la voiture.

98489python_3-6596447

Les voitures chères ont un kilométrage considérablement réduit par rapport aux voitures bas de gamme. Pourtant, dans ce cas, on peut dire qu'il y a une corrélation négative entre le prix de la voiture et le kilométrage.

Définition

Concentrons-nous sur une explication statistique de celui-ci. Le coefficient de corrélation de Pearson est représenté par « r », mesure la force de l'association linéaire entre deux variables continues à l'aide de la formule:

39170formule-1242132

Les valeurs de corrélation de Pearson sont:

La valeur de 'r’ varie de '-1’ un '+1'. La valeur ‘0’ précise qu'il n'y a pas de relation entre les deux variables. Une valeur supérieure à ‘0’ indique une relation positive entre deux variables où une augmentation de la valeur d'une variable augmente la valeur d'une autre variable. Une valeur inférieure à ‘0’ indique une relation négative entre deux variables où une augmentation de la valeur de l'une diminue la valeur d'une autre variable.

25513corrélation-9668068

La corrélation de Pearson tente de tracer une ligne de meilleur ajustement à travers la dispersion de deux variables. Donc, spécifie à quelle distance tous ces points de données sont de la ligne de meilleur ajustement. valeur r’ égal à environ +1 O -1, ce qui signifie que tous les points de données sont inclus au niveau ou à proximité de la ligne de meilleur ajustement, respectivement. La valeur de 'r’ le plus proche des points de données ‘0’ est autour de la ligne de meilleur ajustement.

Considérant le même exemple du prix de la voiture, Découvrons la valeur 'r’ en utilisant la fonction « pearsonr »’ et Python.

Comme indiqué ci-dessus, la valeur de la corrélation de Pearson pour le prix par rapport au poids à vide est 0,835 Oui, car il n'y a pas de corrélation entre le prix et la hauteur de la voiture, la valeur de la corrélation de Pearson entre le prix et la hauteur de la voiture est proche de 0, Qu'est que c'est 0,12.

Hypothèses pour une corrélation de Pearson:

1. Les données doivent être dérivées d'échantillons aléatoires ou moins représentatifs, tirer une inférence statistique significative.

2. Les deux variables doivent être continues et normalement distribuées.

3. Il doit y avoir homoscédasticité, ce qui signifie que la variation autour de la ligne de meilleur ajustement doit être similaire.

4. Les valeurs aberrantes extrêmes influencent le coefficient de corrélation de Pearson. Vous devriez considérer les valeurs aberrantes qui ne sont inhabituelles que dans une variable, denominada ‘variable univariante’ ou pour les deux variables appelées « valeurs atypiques multivariées ». Regarde moi 2 variables indépendamment les unes des autres. Par exemple, si nous traçons l'âge par rapport au montant, ensuite, on voit bien qu'il y a une corrélation entre l'âge d'une personne et le prêt, le montant est attribué à cette personne, à mesure que l'âge augmente le montant du prêt accordé à la personne.

55235python_4-3013181

personne diminue et vice versa. Mais si on représente graphiquement le montant du prêt en fonction de l'âge, aucune conclusion possible. Violerait l'hypothèse.

Les références:

1. https://www.statisticshowto.com/probability-and-statistics/correlation-coefficient-formula/

2.https://statistics.laerd.com/statistical-guides/pearson-correlation-coefficient-statistical-guide.php

3. http://learntech.uwe.ac.uk/da/default.aspx?pageid=1442

4.https://journaux.lww.com/anesthésienalgésie / texte intégral / 2018/05000 / corrélation_coefficients__apropiado_use_and.50.aspx?

Abonnez-vous à notre newsletter

Nous ne vous enverrons pas de courrier SPAM. Nous le détestons autant que vous.