Este post fue difundido como parte del Blogatón de ciencia de datos.
Introducción
Tabla de contenido
- ¿Qué es la correlación?
- Aplicación práctica con R
- Conclusión
¿Qué es la correlación?
Es una medidaLa "medida" es un concepto fundamental en diversas disciplinas, que se refiere al proceso de cuantificar características o magnitudes de objetos, fenómenos o situaciones. En matemáticas, se utiliza para determinar longitudes, áreas y volúmenes, mientras que en ciencias sociales puede referirse a la evaluación de variables cualitativas y cuantitativas. La precisión en la medición es crucial para obtener resultados confiables y válidos en cualquier investigación o aplicación práctica.... estadística que establece la vinculación entre dos variables, dicho de otra forma, las dos variables se vinculan entre sí. Describe el efecto del cambio en una variableEn estadística y matemáticas, una "variable" es un símbolo que representa un valor que puede cambiar o variar. Existen diferentes tipos de variables, como las cualitativas, que describen características no numéricas, y las cuantitativas, que representan cantidades numéricas. Las variables son fundamentales en experimentos y estudios, ya que permiten analizar relaciones y patrones entre diferentes elementos, facilitando la comprensión de fenómenos complejos.... sobre otra variable.
Si las dos variables aumentan o disminuyen en paralelo, entonces disponen una correlación positiva entre ellas y si una de las variables aumenta y otra disminuye, entonces disponen una correlación negativa entre sí. Si el cambio de una variable no tiene efecto sobre otra variable, entonces disponen una correlación cero entre ellas.
Se utiliza para identificar el grado de vinculación lineal entre dos variables. Está representado por 𝝆 y calculado como: –
𝜌 (𝑥, 𝑦) = 𝑐𝑜𝑣 (𝑥, 𝑦) / (𝜎𝑥 × 𝜎𝑦)
Dónde
𝑐𝑜𝑣 (𝑥, 𝑦) = covarianza de xey
𝜎x = Desviación estándar de x
𝜎𝑦 = Desviación estándar de y
𝜌 (𝑥, 𝑦) = correlación entre xey
El valor de 𝜌 (𝑥, 𝑦) varía entre -1 y +1.
Un valor positivo tiene un rango de 0 a 1 donde 𝜌 (𝑥, 𝑦) = 1 establece la fuerte correlación positiva entre las variables.
Un valor negativo tiene un rango de -1 a 0 donde 𝜌 (𝑥, 𝑦) = -1 establece la fuerte correlación negativa entre las variables.
No se establece correlación si el valor de 𝜌 (𝑥, 𝑦) = 0
Aplicación práctica de la correlación a través de R: –
Determinación de la asociación entre la fertilidad y la tasa de mortalidad infantil (usando el conjunto de datos existente «suizo»)
A continuación se muestra el código para calcular la correlación
1. Cargando el conjunto de datos
> data1<-swiss > head(data1, 4)
Fertility Agriculture Examination Education Catholic Infant.Mortality Courtelary 80.2 17.0 15 12 9.96 22.2 Delemont 83.1 45.1 6 9 84.84 22.2 Franches-Mnt 92.5 39.7 5 5 93.40 20.2 Moutier 85.8 36.5 12 7 33.77 20.3
2. Creando un diagrama de dispersiónEl diagrama de dispersión es una herramienta gráfica utilizada en estadística para visualizar la relación entre dos variables. Consiste en un conjunto de puntos en un plano cartesiano, donde cada punto representa un par de valores correspondientes a las variables analizadas. Este tipo de gráfico permite identificar patrones, tendencias y posibles correlaciones, facilitando la interpretación de datos y la toma de decisiones basadas en la información visual presentada.... usando la biblioteca ggplot2
> library(ggplot2)
> ggplot(data1, aes(x = Fertility, y = Infant.Mortality)) + geom_point() +
+ geom_smooth(method = "lm", se = TRUE, color="black")
3. Prueba de los supuestos (linealidad y normalidad)
Linealidad#: Visible desde la propia trama (Verdadero, la vinculación es lineal)
NormalidadPS: Usando la prueba de Shapiro (Esta es una prueba de normalidad, aquí estamos verificando si las variables están distribuidas regularmente o no)
> shapiro.test(data1$Fertility) Shapiro-Wilk normality test data: data1$Fertility W = 0.97307, p-value = 0.3449 > shapiro.test(data1$Infant.Mortality) Shapiro-Wilk normality test data: data1$Infant.Mortality W = 0.97762, p-value = 0.4978
p-value is greater than 0.05, so we can assume the normality
4. Coeficiente de correlación
> cor(data1$Fertility,data1$Infant.Mortality) [1] 0.416556
5. Comprobación de la relevancia
> Tes<- cor.test(swiss$Fertility,swiss$Infant.Mortality,method = "pearson") > > Tes Pearson's product-moment correlation data: swiss$Fertility and swiss$Infant.Mortality t = 3.0737, df = 45, p-value = 0.003585 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: 0.1469699 0.6285366 sample estimates: cor 0.416556
Dado que el valor p es menor que 0.05 (aquí es 0.003585, podemos concluir que la Fertilidad y la Mortalidad Infantil están significativamente correlacionadas con un valor de 0.41 y un valor p de 0.003585.
Conclusión
Como podemos ver, existe un valor positivo entre la tasa de fecundidad y la tasa de mortalidad infantil, el punto a señalar aquí es que la correlación es solo una medida de asociación. Dirá el grado de asociación junto con la proporcionalidad directa o indirecta.
Los medios que se muestran en este post no son propiedad de DataPeaker y se usan a discreción del autor.