Correlación | Análisis de correlación usando R

Contenidos

Este post fue difundido como parte del Blogatón de ciencia de datos.

Introducción

Tabla de contenido

  • ¿Qué es la correlación?
  • Aplicación práctica con R
  • Conclusión

¿Qué es la correlación?

Es una medida estadística que establece la vinculación entre dos variables, dicho de otra forma, las dos variables se vinculan entre sí. Describe el efecto del cambio en una variable sobre otra variable.

Si las dos variables aumentan o disminuyen en paralelo, entonces disponen una correlación positiva entre ellas y si una de las variables aumenta y otra disminuye, entonces disponen una correlación negativa entre sí. Si el cambio de una variable no tiene efecto sobre otra variable, entonces disponen una correlación cero entre ellas.

Se utiliza para identificar el grado de vinculación lineal entre dos variables. Está representado por 𝝆 y calculado como: –

𝜌 (𝑥, 𝑦) = 𝑐𝑜𝑣 (𝑥, 𝑦) / (𝜎𝑥 × 𝜎𝑦)

Dónde

𝑐𝑜𝑣 (𝑥, 𝑦) = covarianza de xey

𝜎x = Desviación estándar de x

𝜎𝑦 = Desviación estándar de y

𝜌 (𝑥, 𝑦) = correlación entre xey

El valor de 𝜌 (𝑥, 𝑦) varía entre -1 y +1.

Un valor positivo tiene un rango de 0 a 1 donde 𝜌 (𝑥, 𝑦) = 1 establece la fuerte correlación positiva entre las variables.

Un valor negativo tiene un rango de -1 a 0 donde 𝜌 (𝑥, 𝑦) = -1 establece la fuerte correlación negativa entre las variables.

No se establece correlación si el valor de 𝜌 (𝑥, 𝑦) = 0

Aplicación práctica de la correlación a través de R: –

Determinación de la asociación entre la fertilidad y la tasa de mortalidad infantil (usando el conjunto de datos existente «suizo»)

A continuación se muestra el código para calcular la correlación

1. Cargando el conjunto de datos

> data1<-swiss
> head(data1, 4)
             Fertility Agriculture Examination Education Catholic Infant.Mortality
Courtelary        80.2        17.0          15        12     9.96             22.2
Delemont          83.1        45.1           6         9    84.84             22.2
Franches-Mnt      92.5        39.7           5         5    93.40             20.2
Moutier           85.8        36.5          12         7    33.77             20.3

2. Creando un diagrama de dispersión usando la biblioteca ggplot2

> library(ggplot2)
> ggplot(data1, aes(x = Fertility, y = Infant.Mortality)) + geom_point() +
+  geom_smooth(method = "lm", se = TRUE, color="black")

3. Prueba de los supuestos (linealidad y normalidad)

Linealidad#: Visible desde la propia trama (Verdadero, la vinculación es lineal)

NormalidadPS: Usando la prueba de Shapiro (Esta es una prueba de normalidad, aquí estamos verificando si las variables están distribuidas regularmente o no)

> shapiro.test(data1$Fertility)

	Shapiro-Wilk normality test

data:  data1$Fertility
W = 0.97307, p-value = 0.3449

> shapiro.test(data1$Infant.Mortality)

	Shapiro-Wilk normality test

data:  data1$Infant.Mortality
W = 0.97762, p-value = 0.4978
p-value is greater than 0.05, so we can assume the normality

4. Coeficiente de correlación

> cor(data1$Fertility,data1$Infant.Mortality)
[1] 0.416556

5. Comprobación de la relevancia

> Tes<- cor.test(swiss$Fertility,swiss$Infant.Mortality,method = "pearson")
> 
> Tes

	Pearson's product-moment correlation

data:  swiss$Fertility and swiss$Infant.Mortality
t = 3.0737, df = 45, p-value = 0.003585
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.1469699 0.6285366
sample estimates:
     cor 
0.416556

Dado que el valor p es menor que 0.05 (aquí es 0.003585, podemos concluir que la Fertilidad y la Mortalidad Infantil están significativamente correlacionadas con un valor de 0.41 y un valor p de 0.003585.

Conclusión

Como podemos ver, existe un valor positivo entre la tasa de fecundidad y la tasa de mortalidad infantil, el punto a señalar aquí es que la correlación es solo una medida de asociación. Dirá el grado de asociación junto con la proporcionalidad directa o indirecta.

Los medios que se muestran en este post no son propiedad de DataPeaker y se usan a discreción del autor.

Suscribite a nuestro Newsletter

No te enviaremos correo SPAM. Lo odiamos tanto como tú.