Coeficiente de correlación de Pearson: una guía para principiantes

Contenidos

Este artículo fue publicado como parte del Blogatón de ciencia de datos.

Introducción

Considere el ejemplo de detección del precio del automóvil donde tenemos que detectar el precio considerando todas las variables que afectan el precio del automóvil, como la longitud del automóvil, el peso en vacío, la altura del automóvil, el ancho del automóvil, el tipo de combustible, la carrocería, la potencia, etc.

Se puede encontrar correlación entre variables continuas usando Python:

65405python_1-4438832
58044python_2-9701706

Podemos ver en el diagrama de dispersión anterior, ya que la longitud del automóvil, el peso en vacío y el ancho del automóvil aumentan, el precio del automóvil también aumenta. Entonces, podemos decir que existe una correlación positiva entre las tres variables anteriores con el precio del automóvil. Aquí, también vemos que no existe una correlación entre la altura del automóvil y el precio del automóvil.

98489python_3-6596447

Los coches con precios elevados tienen un kilometraje muy reducido en comparación con los coches de gama baja. Por tanto, en este caso, podemos decir que existe una correlación negativa entre el precio del coche y el kilometraje.

Definición

Centrémonos en una explicación estadística del mismo. El coeficiente de correlación de Pearson se representa como ‘r’, mide qué tan fuerte es la asociación lineal entre dos variables continuas usando la fórmula:

39170formula-1242132

Los valores de la correlación de Pearson son:

El valor de ‘r’ varía de ‘-1’ a ‘+1’. El valor ‘0’ especifica que no hay relación entre las dos variables. Un valor mayor que ‘0’ indica una relación positiva entre dos variables donde un aumento en el valor de una variable aumenta el valor de otra variable. Un valor menor que ‘0’ indica una relación negativa entre dos variables donde un aumento en el valor de una disminuye el valor de otra variable.

25513correlation-9668068

La correlación de Pearson intenta trazar una línea de mejor ajuste a través de la dispersión de dos variables. Por lo tanto, especifica qué tan lejos están todos estos puntos de datos de la línea de mejor ajuste. Valor de ‘r’ igual a cerca de +1 o -1, lo que significa que todos los puntos de datos se incluyen en o cerca de la línea de mejor ajuste, respectivamente. El valor de ‘r’ más cercano a los puntos de datos ‘0’ está alrededor de la línea de mejor ajuste.

Considerando el mismo ejemplo del precio del automóvil, averigüemos el valor ‘r’ usando la función ‘pearsonr’ en Python.

Como se indicó anteriormente, el valor de la correlación de Pearson para el precio frente al peso en vacío es 0,835 y, como no hay correlación entre el precio y la altura del automóvil, el valor de la correlación de Pearson entre el precio y la altura del automóvil está cerca de 0, que es 0,12.

Supuestos para una correlación de Pearson:

1. Los datos deben derivarse de muestras aleatorias o menos representativas, extraer una inferencia estadística significativa.

2. Ambas variables deben ser continuas y estar distribuidas normalmente.

3. Debe haber homocedasticidad, lo que significa que la variación alrededor de la línea de mejor ajuste debe ser similar.

4. Los valores atípicos extremos influyen en el coeficiente de correlación de Pearson. Debe considerar los valores atípicos que son inusuales solo en una variable, denominada ‘variable univariante’ o para ambas variables conocidas como ‘valores atípicos multivariados’. Se miden 2 variables independientemente entre sí. Por ejemplo, si graficamos la edad frente al monto, entonces, ciertamente podemos ver que existe una correlación entre la edad de una persona y el préstamo, el monto se le otorga a esa persona, a medida que la edad aumenta el monto del préstamo otorgado a la persona.

55235python_4-3013181

persona disminuye y viceversa. Pero si graficamos el monto del préstamo en función de la edad, no es posible extraer ninguna conclusión. Violaría la suposición.

Referencias:

1. https://www.statisticshowto.com/probability-and-statistics/correlation-coefficient-formula/

2.https://statistics.laerd.com/statistical-guides/pearson-correlation-coefficient-statistical-guide.php

3. http://learntech.uwe.ac.uk/da/default.aspx?pageid=1442

4.https://journals.lww.com/anesthesianalgesia / fulltext / 2018/05000 / correlation_coefficients__apropiado_use_and.50.aspx?

Suscribite a nuestro Newsletter

No te enviaremos correo SPAM. Lo odiamos tanto como tú.