Correlazione | Analisi di correlazione utilizzando R

Contenuti

Questo post è stato pubblicato come parte del Blogathon sulla scienza dei dati.

introduzione

Sommario

  • Cos'è la correlazione??
  • Applicazione pratica con R
  • conclusione

Cos'è la correlazione??

Es una misura estadística que establece la vinculación entre dos variables, In altre parole, le due variabili sono collegate tra loro. Describe el efecto del cambio en una variabile sobre otra variable.

Se le due variabili aumentano o diminuiscono in parallelo, allora hanno una correlazione positiva tra loro e se una delle variabili aumenta e un'altra diminuisce, quindi hanno una correlazione negativa tra loro. Se la modifica di una variabile non ha effetto su un'altra variabile, allora hanno una correlazione zero tra di loro.

Viene utilizzato per identificare il grado di collegamento lineare tra due variabili. È rappresentato da e calcolato come: –

? (?, ?) = (?, ?) / (× 𝜎𝑦)

In cui si

? (?, ?) = covarianza di x e y

x = Deviazione standard di x

𝜎𝑦 = Deviazione standard di y

? (?, ?) = correlazione tra x e y

Il valore di (?, ?) varia tra -1 e +1.

Un valore positivo ha un intervallo di 0 un 1 dove (?, ?) = 1 stabilisce la forte correlazione positiva tra le variabili.

Un valore negativo ha un intervallo di -1 un 0 dove (?, ?) = -1 stabilisce la forte correlazione negativa tra le variabili.

Non viene stabilita alcuna correlazione se il valore di ρ (?, ?) = 0

Applicazione pratica della correlazione attraverso R: –

Determinare l'associazione tra fertilità e tasso di mortalità infantile (Utilizzo del dataset esistente “Svizzero”)

Di seguito il codice per calcolare la correlazione

1. Caricamento del set di dati

> dati1<-svizzero
> testa(dati1, 4)
             Fertility Agriculture Examination Education Catholic Infant.Mortality
Courtelary        80.2        17.0          15        12     9.96             22.2
Delémont ·          83.1        45.1           6         9    84.84             22.2
Franches-Mnt      92.5        39.7           5         5    93.40             20.2
cantone di Moutier           85.8        36.5          12         7    33.77             20.3

2. Creando un Diagramma di dispersione usando la biblioteca ggplot2

> biblioteca(ggplot2)
> ggplot(dati1, aes(x = Fertilità, y = Infant.Mortalità)) + geom_point() +
+  geom_smooth(metodo = "lm", se = VERO, colore="Nero")

3. Prova delle ipotesi (linearità e normalità)

Linearità#: Visibile dalla trama stessa (Vero, Il collegamento è lineare)

NormalePS: Utilizzo del test Shapiro (Questa è una prova di normalità, aquí estamos verificando si las variables están distribuidas regularmente o no)

> shapiro.test(data1$Fertility)

	Shapiro-Wilk normality test

data:  data1$Fertility
W = 0.97307, p-valore = 0.3449

> shapiro.test(data1$Infant.Mortality)

	Shapiro-Wilk normality test

data:  data1$Infant.Mortality
W = 0.97762, p-valore = 0.4978
p-value is greater than 0.05, so we can assume the normality

4. Coefficiente di correlazione

> cor(data1$Fertility,data1$Infant.Mortality)
[1] 0.416556

5. Comprobación de la relevancia

> Tes<- cor.test(swiss$Fertility,swiss$Infant.Mortality,metodo = "pearson")
> 
> Tes

	Pearson's product-moment correlation

data:  swiss$Fertility and swiss$Infant.Mortality
t = 3.0737, df = 45, p-valore = 0.003585
ipotesi alternativa: true correlation is not equal to 0
95 intervallo di confidenza percentuale:
 0.1469699 0.6285366
stime campione:
     cor 
0.416556

Poiché il p-value è minore di 0.05 (Ecco qui 0.003585, possiamo concludere che la fertilità e la mortalità infantile sono significativamente correlate con un valore di 0.41 e un valore p di 0.003585.

conclusione

Come possiamo vedere, C'è un valore positivo tra il tasso di fertilità e il tasso di mortalità infantile, il punto da sottolineare qui è che la correlazione è solo una misura dell'associazione. Indicherà il grado di associazione insieme alla proporzionalità diretta o indiretta.

Il supporto mostrato in questo post non è di proprietà di DataPeaker e viene utilizzato a discrezione dell'autore.

Iscriviti alla nostra Newsletter

Non ti invieremo posta SPAM. Lo odiamo quanto te.