introduzione
Come sappiamo tutti, ci sono alcuni processi per analizzare i dati. Primo, definiamo il problema, quindi estraiamo i dati e li prepariamo per l'analisi. Prima dell'ingegneria futura e della costruzione di modelli, c'è un passaggio importante.
L'analisi esplorativa dei dati si riferisce al processo critico di condurre una ricerca iniziale sui dati per scoprire modelli, rilevare anomalie e verificare ipotesi con l'ausilio di statistiche sintetiche e rappresentazioni grafiche. L'analisi esplorativa dei dati è un passaggio importante prima di iniziare ad analizzare o modellare i dati.. Fornisce il contesto necessario per sviluppare un modello appropriato e interpretare correttamente i risultati.
Diamo un'occhiata a un esempio di implementazione di R.
1. Scoperta dei dati
In questa parte, scopriamo i tipi di variabili e le loro statistiche riassuntive nei dati. Primo, carichiamo il set di dati USArrests in R. Quindi stampiamo il set di dati utilizzando la funzione “testacoda” che stampa il set di dati del primo 4 e ultimo 4 righe per impostazione predefinita.
Quindi cerchiamo i tipi di variabili e le statistiche riassuntive delle variabili.
Le funzioni “occhiata” e “str” Ci danno tipi di variabili.
La funzione “numero_profilo” nella libreria funModeling ci fornisce statistiche dettagliate come mean, la deviazione standard, asimmetria, curtosi, l'intervallo interquartile, eccetera.
Interpretiamo alcuni risultati come esempio:
- In media, l'omicidio in ogni città è 7.788.
- La deviazione standard del round è 83,34. È alto. Una deviazione standard elevata indica che i punti dati sono distribuiti su un'ampia gamma di valori.
La asimetría es no ser simétrica de una variabileIn statistica e matematica, un "variabile" è un simbolo che rappresenta un valore che può cambiare o variare. Esistono diversi tipi di variabili, e qualitativo, che descrivono caratteristiche non numeriche, e quantitativo, che rappresentano quantità numeriche. Le variabili sono fondamentali negli esperimenti e negli studi, poiché consentono l'analisi delle relazioni e dei modelli tra elementi diversi, facilitare la comprensione di fenomeni complessi.....
- Se asimmetria> 0 -> distribuzione distorta a destra
- Se l'inclinazione la distribuzione è distorta a sinistra
- Se asimmetria = 0 -> distribuzione simmetrica.
Perciò, mentre la popolazione urbana è sbilanciata a sinistra, Lo stupro è inclinato a destra.
La curtosi mostra se la distribuzione è netta o appiattita.
- Se la curtosi> 3 -> la distribuzione è netta
- Se la curtosi la distribuzione si appiattisce
- Se la curtosi = 3 -> la distribuzione è normale standard
A) Sì, mentre la popolazione urbana è nettamente distribuita, l'assalto è distribuito schiacciato.
2. Rileva valori mancanti
- Como se ve en la figura"Figura" è un termine che viene utilizzato in vari contesti, Dall'arte all'anatomia. In campo artistico, si riferisce alla rappresentazione di forme umane o animali in sculture e dipinti. In anatomia, designa la forma e la struttura del corpo. Cosa c'è di più, in matematica, "figura" è legato alle forme geometriche. La sua versatilità lo rende un concetto fondamentale in molteplici discipline...., non ci sono valori mancanti nei dati.
3. Rilevamento di valori atipici
Una combinazione di valori insoliti in almeno due variabili è un valore anomalo multivariato. L'effetto degli studi statistici può essere influenzato da tutti i tipi di valori anomali. Possono distorcere le analisi statistiche e violare le tue ipotesi.
Dimostriamo sia gli outlier multivariati che quelli individuali.
La funzione “plot_outlier” è una funzione molto utile nella libreria “guarda”. Spettacoli box plotDiagrammi a scatola, Conosciuto anche come diagrammi a scatola e baffi, sono strumenti statistici che rappresentano la distribuzione di un dataset. Questi diagrammi mostrano la mediana, quartili e valori anomali, Consentire la visualizzazione della variabilità e della simmetria dei dati. Sono utili nel confronto tra diversi gruppi e nell'analisi esplorativa, Rendendo più facile identificare tendenze e modelli nei dati.... e istogrammiGli istogrammi sono rappresentazioni grafiche che mostrano la distribuzione di un set di dati. Sono costruiti dividendo l'intervallo di valori in intervalli, oh "Bidoni", e il conteggio della quantità di dati che cadono in ogni intervallo. Questa visualizzazione consente di identificare i modelli, tendenze e variabilità dei dati in modo efficace, facilitare l'analisi statistica e il processo decisionale informato in varie discipline.... de todas las variables numéricas con valores atípicos y sin valores atípicos. Il motivo degli spettacoli Boxplots è che sono strumenti molto utili per visualizzare i valori anomali.
Come si vede nelle classifiche, solo le variabili di violazione hanno valori anomali. Cosa c'è di più, quando guardiamo l'istogramma senza valori anomali, la sua forma è più simmetrica.
Diamo un'occhiata agli outlier multivariati. (è molto utile nell'analisi multivariata, solo un esempio lascia che te lo mostriamo)
Come appare, ci sono 7 valori anomali nei dati.
4. Verifica delle ipotesi
Per continuare con metodi statistici, è importante valutare la normalità. Questa ipotesi ci permette di costruire intervalli di confidenza ed eseguire test di ipotesi.. Per verificare la normalità, non esiste un metodo migliore che sia corretto in tutte le condizioni. È molto conveniente utilizzare approcci grafici per decidere la normalità multivariata, oltre ai risultati numerici. Può essere utile combinarli per offrire opzioni più precise.
- Nessuna delle variabili appare normale guardando l'istogramma e il grafico QQ, e gli istogrammi non sembrano normali dopo la trasformazione della radice quadrata e logaritmica.
4. Visualizzazioni
In questa parte, possiamo osservare visivamente diversi grafici di variabili e la relazione tra le variabili. Scriviamo alcune domande di ricerca.
4.1. In quale città ci sono più omicidi?
Per questa domanda, podemos usar mapa o grafico a barreEl gráfico de barras es una representación visual de datos que utiliza barras rectangulares para mostrar comparaciones entre diferentes categorías. Cada barra representa un valor y su longitud es proporcional a este. Este tipo de gráfico es útil para visualizar y analizar tendencias, facilitando la interpretación de información cuantitativa. Es ampliamente utilizado en diversas disciplinas, como la estadística, el marketing y la investigación, debido a su simplicidad y efectividad.....
Il codice R per il grafico sottostante è:
- Come potete vedere, la maggior parte degli omicidi sono stati commessi in Georgia.
4.2. Quali sono i valori di tutte le variabili in ogni città?
4.3. Qual è la relazione tra aggressione e omicidio?
Per questa domanda, possiamo disegnare una trama interattiva come quella mostrata sopra per vedere i nomi degli stati.
I codici R per la cornice interattiva sono:
Oppure possiamo immergerlo usando ggplot.
Come appare, c'è una relazione positiva tra omicidio e aggressione.
4.4. Qual è il rapporto tra popolazione urbana e stupro??
- Linea e dispersione mostra la relazione tra due variabili e nei margini vediamo il box plot di due variabili.
- Possiamo dire che esiste una relazione positiva tra la popolazione urbana e lo stupro.
4.5. Quali sono le relazioni tra le variabili??
Vediamo la correlazione tra le variabili. Per vedere questo, possiamo disegnare mappe di cappelli.
Le correlazioni positive sono mostrate in blu e le correlazioni negative in rosso. L'intensità del colore è proporzionale ai coefficienti di correlazione. Quando osserviamo la matrice di correlazione, Si vede che tra alcune variabili c'è una forte relazione positiva come aggressione e stupro, aggressione e omicidio.
conclusione
Completare, In questo articolo esaminiamo l'analisi esplicativa dei dati e quali tipi di visualizzazione possiamo utilizzare per l'analisi esplicativa dei dati. Come sopra, è un passo molto cruciale e dovrebbe essere fatto prima dell'ingegneria futura e della costruzione del modello per comprendere meglio i dati. Puoi accedere ai codici dal link sottostante.
https://github.com/iremtanriverdi/R_codes
I media mostrati in questo articolo di analisi dei dati esplorativi non sono di proprietà di DataPeaker e vengono utilizzati a discrezione dell'autore.