Questo post è stato pubblicato come parte del Blogathon sulla scienza dei dati.
introduzione
Sommario
- Cos'è la correlazione??
- Applicazione pratica con R
- conclusione
Cos'è la correlazione??
Es una misuraIl "misura" È un concetto fondamentale in diverse discipline, che si riferisce al processo di quantificazione delle caratteristiche o delle grandezze degli oggetti, fenomeni o situazioni. In matematica, Utilizzato per determinare le lunghezze, Aree e volumi, mentre nelle scienze sociali può riferirsi alla valutazione di variabili qualitative e quantitative. L'accuratezza della misurazione è fondamentale per ottenere risultati affidabili e validi in qualsiasi ricerca o applicazione pratica.... estadística que establece la vinculación entre dos variables, In altre parole, le due variabili sono collegate tra loro. Describe el efecto del cambio en una variabileIn statistica e matematica, un "variabile" è un simbolo che rappresenta un valore che può cambiare o variare. Esistono diversi tipi di variabili, e qualitativo, che descrivono caratteristiche non numeriche, e quantitativo, che rappresentano quantità numeriche. Le variabili sono fondamentali negli esperimenti e negli studi, poiché consentono l'analisi delle relazioni e dei modelli tra elementi diversi, facilitare la comprensione di fenomeni complessi.... sobre otra variable.
Se le due variabili aumentano o diminuiscono in parallelo, allora hanno una correlazione positiva tra loro e se una delle variabili aumenta e un'altra diminuisce, quindi hanno una correlazione negativa tra loro. Se la modifica di una variabile non ha effetto su un'altra variabile, allora hanno una correlazione zero tra di loro.
Viene utilizzato per identificare il grado di collegamento lineare tra due variabili. È rappresentato da e calcolato come: –
? (?, ?) = (?, ?) / (× 𝜎𝑦)
In cui si
? (?, ?) = covarianza di x e y
x = Deviazione standard di x
𝜎𝑦 = Deviazione standard di y
? (?, ?) = correlazione tra x e y
Il valore di (?, ?) varia tra -1 e +1.
Un valore positivo ha un intervallo di 0 un 1 dove (?, ?) = 1 stabilisce la forte correlazione positiva tra le variabili.
Un valore negativo ha un intervallo di -1 un 0 dove (?, ?) = -1 stabilisce la forte correlazione negativa tra le variabili.
Non viene stabilita alcuna correlazione se il valore di ρ (?, ?) = 0
Applicazione pratica della correlazione attraverso R: –
Determinare l'associazione tra fertilità e tasso di mortalità infantile (Utilizzo del dataset esistente “Svizzero”)
Di seguito il codice per calcolare la correlazione
1. Caricamento del set di dati
> dati1<-svizzero > testa(dati1, 4)
Fertility Agriculture Examination Education Catholic Infant.Mortality
Courtelary 80.2 17.0 15 12 9.96 22.2
Delémont · 83.1 45.1 6 9 84.84 22.2
Franches-Mnt 92.5 39.7 5 5 93.40 20.2
cantone di Moutier 85.8 36.5 12 7 33.77 20.3
2. Creando un Diagramma di dispersioneIl grafico a dispersione è uno strumento grafico utilizzato in statistica per visualizzare la relazione tra due variabili. Consiste in un insieme di punti in un piano cartesiano, dove ogni punto rappresenta una coppia di valori corrispondenti alle variabili analizzate. Questo tipo di grafico consente di identificare i modelli, Tendenze e possibili correlazioni, facilitare l'interpretazione dei dati e il processo decisionale sulla base delle informazioni visive presentate.... usando la biblioteca ggplot2
> biblioteca(ggplot2)
> ggplot(dati1, aes(x = Fertilità, y = Infant.Mortalità)) + geom_point() +
+ geom_smooth(metodo = "lm", se = VERO, colore="Nero")
3. Prova delle ipotesi (linearità e normalità)
Linearità#: Visibile dalla trama stessa (Vero, Il collegamento è lineare)
NormalePS: Utilizzo del test Shapiro (Questa è una prova di normalità, aquí estamos verificando si las variables están distribuidas regularmente o no)
> shapiro.test(data1$Fertility) Shapiro-Wilk normality test data: data1$Fertility W = 0.97307, p-valore = 0.3449 > shapiro.test(data1$Infant.Mortality) Shapiro-Wilk normality test data: data1$Infant.Mortality W = 0.97762, p-valore = 0.4978
p-value is greater than 0.05, so we can assume the normality
4. Coefficiente di correlazione
> cor(data1$Fertility,data1$Infant.Mortality) [1] 0.416556
5. Comprobación de la relevancia
> Tes<- cor.test(swiss$Fertility,swiss$Infant.Mortality,metodo = "pearson") > > Tes Pearson's product-moment correlation data: swiss$Fertility and swiss$Infant.Mortality t = 3.0737, df = 45, p-valore = 0.003585 ipotesi alternativa: true correlation is not equal to 0 95 intervallo di confidenza percentuale: 0.1469699 0.6285366 stime campione: cor 0.416556
Poiché il p-value è minore di 0.05 (Ecco qui 0.003585, possiamo concludere che la fertilità e la mortalità infantile sono significativamente correlate con un valore di 0.41 e un valore p di 0.003585.
conclusione
Come possiamo vedere, C'è un valore positivo tra il tasso di fertilità e il tasso di mortalità infantile, il punto da sottolineare qui è che la correlazione è solo una misura dell'associazione. Indicherà il grado di associazione insieme alla proporzionalità diretta o indiretta.
Il supporto mostrato in questo post non è di proprietà di DataPeaker e viene utilizzato a discrezione dell'autore.