Cet article a été publié dans le cadre du Blogathon sur la science des données.
introduction
Prenons l'exemple de la détection du prix de la voiture où nous devons détecter le prix en tenant compte de toutes les variables qui affectent le prix de la voiture, comme la longueur de la voiture, poids à vide, la hauteur de la voiture, la largeur de la voiture, le type de carburant, le corps, La puissance, etc.
La corrélation entre les variables continues peut être trouvée en utilisant Python:
Nous pouvons voir dans le nuage de points ci-dessus, car la longueur de la voiture, le poids à vide et la largeur de la voiture augmentent, le prix de la voiture augmente aussi. Ensuite, on peut dire qu'il y a une corrélation positive entre les trois variables précédentes avec le prix de la voiture. Ici, on voit aussi qu'il n'y a pas de corrélation entre la hauteur de la voiture et le prix de la voiture.
Les voitures chères ont un kilométrage considérablement réduit par rapport aux voitures bas de gamme. Pourtant, dans ce cas, on peut dire qu'il y a une corrélation négative entre le prix de la voiture et le kilométrage.
Définition
Concentrons-nous sur une explication statistique de celui-ci. Le coefficient de corrélation de Pearson est représenté par « r », mesure la force de l'association linéaire entre deux variables continues à l'aide de la formule:
Les valeurs de corrélation de Pearson sont:
La valeur de 'r’ varie de '-1’ un '+1'. La valeur ‘0’ précise qu'il n'y a pas de relation entre les deux variables. Une valeur supérieure à ‘0’ indique une relation positive entre deux variables où une augmentation de la valeur d'une variable augmente la valeur d'une autre variable. Une valeur inférieure à ‘0’ indique une relation négative entre deux variables où une augmentation de la valeur de l'une diminue la valeur d'une autre variable.
La corrélation de Pearson tente de tracer une ligne de meilleur ajustement à travers la dispersion de deux variables. Donc, spécifie à quelle distance tous ces points de données sont de la ligne de meilleur ajustement. valeur r’ égal à environ +1 O -1, ce qui signifie que tous les points de données sont inclus au niveau ou à proximité de la ligne de meilleur ajustement, respectivement. La valeur de 'r’ le plus proche des points de données ‘0’ est autour de la ligne de meilleur ajustement.
Considérant le même exemple du prix de la voiture, Découvrons la valeur 'r’ en utilisant la fonction « pearsonr »’ et Python.
Comme indiqué ci-dessus, la valeur de la corrélation de Pearson pour le prix par rapport au poids à vide est 0,835 Oui, car il n'y a pas de corrélation entre le prix et la hauteur de la voiture, la valeur de la corrélation de Pearson entre le prix et la hauteur de la voiture est proche de 0, Qu'est que c'est 0,12.
Hypothèses pour une corrélation de Pearson:
1. Les données doivent être dérivées d'échantillons aléatoires ou moins représentatifs, tirer une inférence statistique significative.
2. Les deux variables doivent être continues et normalement distribuées.
3. Il doit y avoir homoscédasticité, ce qui signifie que la variation autour de la ligne de meilleur ajustement doit être similaire.
4. Les valeurs aberrantes extrêmes influencent le coefficient de corrélation de Pearson. Vous devriez considérer les valeurs aberrantes qui ne sont inhabituelles que dans une variable, denominada ‘variable univariante’ ou pour les deux variables appelées « valeurs atypiques multivariées ». Regarde moi 2 variables indépendamment les unes des autres. Par exemple, si nous traçons l'âge par rapport au montant, ensuite, on voit bien qu'il y a une corrélation entre l'âge d'une personne et le prêt, le montant est attribué à cette personne, à mesure que l'âge augmente le montant du prêt accordé à la personne.
personne diminue et vice versa. Mais si on représente graphiquement le montant du prêt en fonction de l'âge, aucune conclusion possible. Violerait l'hypothèse.
Les références:
1. https://www.statisticshowto.com/probability-and-statistics/correlation-coefficient-formula/
3. http://learntech.uwe.ac.uk/da/default.aspx?pageid=1442
4.https://journaux.lww.com/anesthésienalgésie / texte intégral / 2018/05000 / corrélation_coefficients__apropiado_use_and.50.aspx?