Analisi esplorativa dei dati | Guida per principianti all'analisi esplicativa dei dati

Contenuti

introduzione

908751t8d6pcrhaz3gzn31y-u0pa-9973427

Come sappiamo tutti, ci sono alcuni processi per analizzare i dati. Primo, definiamo il problema, quindi estraiamo i dati e li prepariamo per l'analisi. Prima dell'ingegneria futura e della costruzione di modelli, c'è un passaggio importante.

336660wunzpjh43habilcy-3656588

L'analisi esplorativa dei dati si riferisce al processo critico di condurre una ricerca iniziale sui dati per scoprire modelli, rilevare anomalie e verificare ipotesi con l'ausilio di statistiche sintetiche e rappresentazioni grafiche. L'analisi esplorativa dei dati è un passaggio importante prima di iniziare ad analizzare o modellare i dati.. Fornisce il contesto necessario per sviluppare un modello appropriato e interpretare correttamente i risultati.

Diamo un'occhiata a un esempio di implementazione di R.

1. Scoperta dei dati

In questa parte, scopriamo i tipi di variabili e le loro statistiche riassuntive nei dati. Primo, carichiamo il set di dati USArrests in R. Quindi stampiamo il set di dati utilizzando la funzione “testacoda” che stampa il set di dati del primo 4 e ultimo 4 righe per impostazione predefinita.

37971ekran20resmi202021-04-212013-22-17-2966598

Quindi cerchiamo i tipi di variabili e le statistiche riassuntive delle variabili.

Le funzioni “occhiata” e “str” Ci danno tipi di variabili.

44948ekran20resmi202021-04-212013-26-20-2006313

La funzione “numero_profilo” nella libreria funModeling ci fornisce statistiche dettagliate come mean, la deviazione standard, asimmetria, curtosi, l'intervallo interquartile, eccetera.

41825ekran20resmi202021-04-212013-28-24-3489380

Interpretiamo alcuni risultati come esempio:

  • In media, l'omicidio in ogni città è 7.788.
  • La deviazione standard del round è 83,34. È alto. Una deviazione standard elevata indica che i punti dati sono distribuiti su un'ampia gamma di valori.

La asimetría es no ser simétrica de una variabile.

20998asimmetria-formula-7011098
  • Se asimmetria> 0 -> distribuzione distorta a destra
  • Se l'inclinazione la distribuzione è distorta a sinistra
  • Se asimmetria = 0 -> distribuzione simmetrica.

Perciò, mentre la popolazione urbana è sbilanciata a sinistra, Lo stupro è inclinato a destra.

La curtosi mostra se la distribuzione è netta o appiattita.

15816curtosi-formula-3940283
  • Se la curtosi> 3 -> la distribuzione è netta
  • Se la curtosi la distribuzione si appiattisce
  • Se la curtosi = 3 -> la distribuzione è normale standard

A) Sì, mentre la popolazione urbana è nettamente distribuita, l'assalto è distribuito schiacciato.

2. Rileva valori mancanti

73260ekran20resmi202021-04-212013-52-00-3669889
  • Como se ve en la figura, non ci sono valori mancanti nei dati.

3. Rilevamento di valori atipici

Una combinazione di valori insoliti in almeno due variabili è un valore anomalo multivariato. L'effetto degli studi statistici può essere influenzato da tutti i tipi di valori anomali. Possono distorcere le analisi statistiche e violare le tue ipotesi.

Dimostriamo sia gli outlier multivariati che quelli individuali.

La funzione “plot_outlier” è una funzione molto utile nella libreria “guarda”. Spettacoli box plot e istogrammi de todas las variables numéricas con valores atípicos y sin valores atípicos. Il motivo degli spettacoli Boxplots è che sono strumenti molto utili per visualizzare i valori anomali.

21982ekran20resmi202021-04-212013-59-38-7625782
51775ekran20resmi202021-04-212013-59-47-6163278
91703ekran20resmi202021-04-212013-59-56-1152529
78480ekran20resmi202021-04-212014-00-03-7373866

Come si vede nelle classifiche, solo le variabili di violazione hanno valori anomali. Cosa c'è di più, quando guardiamo l'istogramma senza valori anomali, la sua forma è più simmetrica.

Diamo un'occhiata agli outlier multivariati. (è molto utile nell'analisi multivariata, solo un esempio lascia che te lo mostriamo)

80834ekran20resmi202021-04-212014-06-35-3228285

Come appare, ci sono 7 valori anomali nei dati.

4. Verifica delle ipotesi

Per continuare con metodi statistici, è importante valutare la normalità. Questa ipotesi ci permette di costruire intervalli di confidenza ed eseguire test di ipotesi.. Per verificare la normalità, non esiste un metodo migliore che sia corretto in tutte le condizioni. È molto conveniente utilizzare approcci grafici per decidere la normalità multivariata, oltre ai risultati numerici. Può essere utile combinarli per offrire opzioni più precise.

15701ekran20resmi202021-04-212014-10-40-6488305
26028ekran20resmi202021-04-212014-10-46-1014085
40118ekran20resmi202021-04-212014-10-53-2188309
12054ekran20resmi202021-04-212014-10-59-7145667
  • Nessuna delle variabili appare normale guardando l'istogramma e il grafico QQ, e gli istogrammi non sembrano normali dopo la trasformazione della radice quadrata e logaritmica.

4. Visualizzazioni

In questa parte, possiamo osservare visivamente diversi grafici di variabili e la relazione tra le variabili. Scriviamo alcune domande di ricerca.

4.1. In quale città ci sono più omicidi?

Per questa domanda, podemos usar mapa o grafico a barre.

54783ekran20resmi202021-04-212014-30-16-9216523

Il codice R per il grafico sottostante è:

39523ekran20resmi202021-04-212015-06-49-2639564

! funzione () {“indossare rigorosamente”; window.addEventListener (“Messaggio”, (funzione (un) {Se (vuoto 0! == a.dati[“datawrapper-altezza”]) per (var e en a.data[“datawrapper-altezza”]) {var t = document.getElementById (“datawrapper-grafico -” + e) ​​|| document.querySelector (“iframe[src*='”+e+”']"); T && (t.style.height = a.data[“datawrapper-altezza”][e]+ "Px")}}))} ();

  • Come potete vedere, la maggior parte degli omicidi sono stati commessi in Georgia.

4.2. Quali sono i valori di tutte le variabili in ogni città?

69707ekran20resmi202021-04-212021-08-25-2055521

4.3. Qual è la relazione tra aggressione e omicidio?

Per questa domanda, possiamo disegnare una trama interattiva come quella mostrata sopra per vedere i nomi degli stati.

I codici R per la cornice interattiva sono:

85910ekran20resmi202021-04-212015-45-01-1835458

! funzione () {“indossare rigorosamente”; window.addEventListener (“Messaggio”, (funzione (un) {Se (vuoto 0! == a.dati[“datawrapper-altezza”]) per (var e en a.data[“datawrapper-altezza”]) {var t = document.getElementById (“datawrapper-grafico -” + e) ​​|| document.querySelector (“iframe[src*='”+e+”']"); T && (t.style.height = a.data[“datawrapper-altezza”][e]+ "Px")}}))} ();

Oppure possiamo immergerlo usando ggplot.

93494ekran20resmi202021-04-212015-23-48-9681282

Come appare, c'è una relazione positiva tra omicidio e aggressione.

4.4. Qual è il rapporto tra popolazione urbana e stupro??

79208ekran20resmi202021-04-212015-29-11-9001486
70991ekran20resmi202021-04-212015-29-20-3103869
  • Linea e dispersione mostra la relazione tra due variabili e nei margini vediamo il box plot di due variabili.
  • Possiamo dire che esiste una relazione positiva tra la popolazione urbana e lo stupro.

4.5. Quali sono le relazioni tra le variabili??

Vediamo la correlazione tra le variabili. Per vedere questo, possiamo disegnare mappe di cappelli.

71125ekran20resmi202021-04-212015-36-03-7633276

Le correlazioni positive sono mostrate in blu e le correlazioni negative in rosso. L'intensità del colore è proporzionale ai coefficienti di correlazione. Quando osserviamo la matrice di correlazione, Si vede che tra alcune variabili c'è una forte relazione positiva come aggressione e stupro, aggressione e omicidio.

conclusione

Completare, In questo articolo esaminiamo l'analisi esplicativa dei dati e quali tipi di visualizzazione possiamo utilizzare per l'analisi esplicativa dei dati. Come sopra, è un passo molto cruciale e dovrebbe essere fatto prima dell'ingegneria futura e della costruzione del modello per comprendere meglio i dati. Puoi accedere ai codici dal link sottostante.

https://github.com/iremtanriverdi/R_codes

I media mostrati in questo articolo di analisi dei dati esplorativi non sono di proprietà di DataPeaker e vengono utilizzati a discrezione dell'autore.

Iscriviti alla nostra Newsletter

Non ti invieremo posta SPAM. Lo odiamo quanto te.