Visualizzazione dei dati in R | Guida alla visualizzazione dei dati in R

Contenuti

Diamo un'occhiata a questo grafico per un secondo.,

imprenditori_viaggio-8698540

Questa visualizzazione (originariamente creato con Tableau) è un ottimo esempio di come la visualizzazione dei dati può aiutare i decisori. Immagina di raccontare queste informazioni a un investitore attraverso una tabella. Quanto tempo pensi che ci vorrà per spiegare?

Con un volume di dati sempre crescente nel mondo di oggi, è impossibile raccontare storie senza queste visualizzazioni. Sebbene ci siano strumenti dedicati come Tableau, QlikView e d3.js, niente può sostituire gli strumenti di modellazione / statistiche con una buona capacità di visualizzazione. È di grande aiuto per eseguire qualsiasi analisi esplorativa dei dati, così come l'ingegneria delle funzioni. È qui che R offre un aiuto incredibile.

R Programming offre un insieme soddisfacente di funzioni e librerie integrate (come ggplot2, informazioni utente, reticolo) per creare visualizzazioni e presentare dati. In questo articolo, Ho coperto i passaggi per creare visualizzazioni comuni e avanzate in R Programming. Ma, prima di raggiungerli, diamo un rapido sguardo alla breve storia della visualizzazione dei dati. Se non sei interessato alla storia, puoi tranquillamente passare alla sezione successiva.

Una breve storia della visualizzazione dei dati:

Storicamente, la visualizzazione dei dati si è evoluta grazie al lavoro di importanti professionisti. Il fondatore dei metodi grafici nelle statistiche è William Playfair. William Playfair ha inventato quattro tipi di grafica: il grafico a linee, il grafico a barre de datos económicos, il Grafico a torta y el gráfico circular. Joseph Priestly aveva creato l'innovazione dei primi grafici della timeline, dove le singole barre venivano utilizzate per visualizzare la durata della vita di una persona (1765). Ecco com'è, Le tempistiche sono state inventate fa 250 anni e non da Facebook!

Tra le prime visualizzazioni dei dati più famose c'è la Marcia di Napoleone, come descritto Charles Minard. La visualizzazione dei dati include ampie informazioni sull'effetto della temperatura sull'invasione della Russia da parte di Napoleone insieme alle scale temporali. Il grafico si distingue per la sua rappresentazione in due dimensioni di sei tipi di dati: il numero delle truppe di Napoleone; distanza; temperatura; latitudine e longitudine; senso di marcia; e posizione relativa a date specifiche

Florence Nightangle è stata anche una pioniera nella visualizzazione dei dati. Drew Coxcomb grafici per rappresentare l'effetto della malattia sulla mortalità delle truppe (1858). L'uso delle mappe nella grafica o nell'analisi spaziale è stato introdotto da John Snow (¡no de Il Trono di Spade!). Era una mappa dei decessi per un'epidemia di colera a Londra, 1854, in relazione all'ubicazione delle pompe dell'acqua pubblica e ha contribuito a identificare l'epidemia in una singola pompa.

Visualizzazione dei dati in R:

In questo articolo, creeremo le seguenti visualizzazioni:

Visualizzazione di base

  1. Istogramma
  2. Grafico a barre / Linee
  3. Trama scatola
  4. Grafico a dispersione

Visualizzazione avanzata

  1. Mappa di calore
  2. Mappa mosaico
  3. Visualizzazione della mappa
  4. Grafica 3D
  5. Correlogramma

Suggerimento R: il Dati storici Il pacchetto fornisce una raccolta di piccoli set di dati interessanti e importanti nella storia delle statistiche e della visualizzazione dei dati..

grafico-3121261

VISUALIZZAZIONI DI BASE

Note veloci:

  1. La grafica di base in R può essere creata abbastanza facilmente. il trama comando è il comando da considerare.
  2. Toma muchos parametri de datos del eje x, dati dell'asse y, etichette dell'asse x, etichette dell'asse y, colore e titolo. Per creare grafici a linee, basta usare il parametro, tipo = l.
  3. Se vuoi un box plot, puoi usare il word box plot e, per grafico a barre, usa la funzione grafico a barre.

1. Istogramma

L'istogramma è fondamentalmente un grafico che divide i dati in contenitori (le pause) e mostra la distribuzione di frequenza di questi contenitori. Puoi anche modificare le pause e vedere l'effetto che la visualizzazione dei dati ha in termini di comprensibilità.

Lasciate che vi faccia un esempio.

Nota: Abbiamo usato il comando par (mfrow = c (2,5)) per adattare più elementi grafici sulla stessa pagina per maggiore chiarezza (vedi il codice qui sotto).

I seguenti comandi lo mostrano in un modo migliore. Nel seguente codice, il principale L'opzione imposta il titolo del grafico e il colonna opción llama en la Tavolozza de RColorBrewer para establecer los colores.

biblioteca(RColorBrewer)
dati(VAmorti)
attraverso(mfrow=c(2,3))
storico(VAmorti,pause=10, col=brewer.pal(3,"Set3"),principale="Set3 3 colori")
storico(VAmorti,pause=3 ,col=brewer.pal(3,"Set2"),principale="Set2 3 colori")
storico(VAmorti,pause=7, col=brewer.pal(3,"Set1"),principale="Set1 3 colori")
storico(VAmorti,,pause= 2, col=brewer.pal(8,"Set3"),principale="Set3 8 colori")
storico(VAmorti,col=brewer.pal(8,"Grigi"),principale="Grigi 8 colori")
storico(VAmorti,col=brewer.pal(8,"verdi"),principale="verdi 8 colori")

 trama-5560610

Nota che se il numero di interruzioni è inferiore al numero di colori specificato, i colori vanno solo a valori estremi come nel grafico “Stabilire 3 8 colori”. Se il numero di tagli è maggiore del numero di colori, i colori iniziano a ripetersi come nella prima riga.

2. Grafico a barre / Linee

Grafico a linee

Di seguito è riportato il grafico a linee che mostra l'aumento dei passeggeri aerei in un determinato periodo di tempo. I grafici a linee sono comunemente preferiti quando analizzeremo una tendenza che si estende su un periodo di tempo.. Cosa c'è di più, el gráfico de líneas también es adecuado para gráficos en los que necesitamos comparar cambios relativos en cantidades a través de alguna variabile (come il tempo). Di seguito è riportato il codice:

complotto(AirPassengers,tipo="io")  #Grafico a linea semplice

rplot01-6565176

Grafico a barre

I grafici a barre sono adatti per mostrare il confronto tra i totali cumulativi di vari gruppi. I grafici in pila vengono utilizzati per i grafici a barre per varie categorie. Ecco il codice:

barplot(iris$Petal.Lunghezza) #Creating simple Bar Graph
barplot(iris$Sepal.Lunghezza,col = brewer.pal(3,"Set1"))
barplot(tavolo(iris$Specie,iris$Sepal.Lunghezza),col = brewer.pal(3,"Set1")) #Trama impilata

rplot04-6257828

3. Trama scatola (inclusa l'opzione per raggruppare)

Il diagramma della scatola mostra 5 numeri statisticamente significativi: il minimo, il percentile 25, il mediano, il percentile 75 e il massimo. Perciò, è utile per visualizzare l'estensione dei dati e ricavare di conseguenza le inferenze. Ecco il codice base:

trama a scatole(iris$Petal.Length~iris$Specie) #Creazione di box plot tra due variabili

Comprendiamo il codice qui sotto:

Nel seguente esempio, Fatto 4 grafica su uno schermo. Quando si utilizza il segno ~, Posso visualizzare come è la propagazione (lunghezza del sepalo) in varie categorie (specie). Negli ultimi due grafici ho mostrato l'esempio delle tavolozze dei colori. Una tavolozza di colori è un gruppo di colori che viene utilizzato per rendere il grafico più attraente e per aiutare a creare distinzioni visive nei dati..

dati(iris)
attraverso(mfrow=c(2,2))
trama a scatole(iris$Sepal.Lunghezza,col="rosso")
trama a scatole(iris$Sepal.Lunghezza~iris$Specie,col="rosso")
oxplot(iris$Sepal.Lunghezza~iris$Specie,col=calore.colori(3))
trama a scatole(iris$Sepal.Lunghezza~iris$Specie,col=topo.colors(3))

rplot03-9857722

Per ulteriori informazioni sull'utilizzo delle tavolozze dei colori in R, visita qui.

4. Grafico a dispersione (incluso 3D e altre funzionalità)

I grafici a dispersione aiutano a visualizzare i dati facilmente e per una semplice ispezione dei dati. Aquí está el código para el Diagramma di dispersione simple y multivariado:

complotto(x=iris$Petalo.Lunghezza) #Grafico a dispersione semplice
complotto(x=iris$Petalo.Lunghezza,y = iride $ Specie) #Grafico a dispersione multivariato

rplot06-9303955

Scatter Plot Matrix puede ayudar a visualizar múltiples variables entre sí.

complotto(iris,col=brewer.pal(3,"Set1"))

rplot05-6894402

Potresti pensare che non ho incluso i grafici a torta nell'elenco dei grafici di base. Questo è intenzionale, Non perdere. Questo perché i professionisti della visualizzazione dei dati disapprovano l'utilizzo di grafici a torta per rappresentare i dati.. Questo perché l'occhio umano non può visualizzare le distanze circolari con la stessa precisione della distanza lineare.. In poche parole, tutto ciò che può essere inserito in un grafico a torta è rappresentato al meglio come un grafico a linee. tuttavia, se ti piace il grafico a torta, Stati Uniti d'America:

 torta(tavolo(iris$Specie))

Ecco un elenco completo di tutti i grafici che abbiamo imparato finora:

lastone-7383618

Potresti averlo notato in alcune delle classifiche, i suoi titoli sono stati troncati perché ho messo troppe grafiche sullo stesso schermo. Per cambiarlo, puoi semplicemente cambiare il parametro 'mfrow'’ per la coppia.

Visualizzazioni avanzate

Che cos'è Hexbin Binning??

Possiamo usare il pacchetto hexbin nel caso abbiamo più punti nello stesso posto (trama eccessiva). Il raggruppamento hexagonal es una forma de histograma bivariado útil para visualizar la estructura en conjuntos de datos con n grande. Ecco il codice:

>biblioteca(hexbin)
>a=hexbin(diamanti$prezzo,diamanti $ carati,xbins=40)
>biblioteca(RColorBrewer)
>complotto(un)

rplot08-9685596

Possiamo anche creare una tavolozza di colori e quindi utilizzare la funzione di stampa di hexbin per un migliore effetto visivo. Ecco il codice:

>biblioteca(RColorBrewer)
>rf <- colorRampPalette(rev(birraio.pal(40,'Set3')))
>hexbinplot(diamanti$prezzo~diamanti$carati, dati=diamanti, colramp=rf)

trama09-2310346

trama a mosaico

Un grafico a mosaico può essere utilizzato per tracciare dati categorici in modo molto efficace con l'area dei dati che mostra le proporzioni relative.

> dati(CapelliOcchiColore)
 > trama del mosaico(CapelliOcchiColore)

rplot6-7112183

Mappa di calore

Los mapas de calor le permiten realizar análisis de datos exploratorios con dos dimensiones como eje y la tercera dimensione mostrada por la intensidad del color. tuttavia, devi convertire il set di dati in un formato array. Ecco il codice:

> mappa di calore(come.matrice(mtcars))

Puoi usare il comando immagine () anche per questo tipo di visualizzazione like:

> Immagine(come.matrice(B[2:7]))

rplot12-8109622

Come riassumere molti dati?

È possibile utilizzare la funzione tableplot del pacchetto tabplot per riepilogare rapidamente una grande quantità di dati

rplot13-5471253

Visualizzazione della mappa

L'ultima novità di R è la visualizzazione dei dati tramite librerie Javascript. Opuscolo è una delle librerie JavaScript open source più popolari per mappe interattive. Si basa su https://rstudio.github.io/leaflet/

Puoi installarlo direttamente da github usando:

devtools::install_github("rstudio/volantino")

RPLOT14-6542760

Il codice della mappa sopra è abbastanza semplice:

biblioteca(magrittr)
biblioteca(dépliant)
m <- dépliant() %>%
addTiles() %>%  # Add default OpenStreetMap map tiles
addMarkers(lng=77,2310, lat=28,6560, popup="Il delizioso cibo di chandni chowk")
m  # Stampa la mappa

Grafica 3D

Uno dei modi più semplici per impressionare qualcuno con le capacità di R è creare una grafica 3D in R senza scrivere NESSUNA riga di codice e in 3 minuti. È troppo chiedere?

Utilizziamo il pacchetto R Commander che funge da interfaccia utente grafica (GUI). Ecco i passaggi:

  • Basta installare il pacchetto Rcmdr
  • Usa l'opzione di stampa 3D all'interno dei grafici

Il seguente codice non è scritto dall'utente, ma viene generato automaticamente.

Nota: Quando scambiamo gli assi del grafico, dovresti vedere i grafici con il rispettivo codice come passiamo le etichette degli assi usando xlab, ylab, e il titolo del grafico usando Main e color usando il parametro col.

>dati(iris, pacchetto="set di dati")
>dispersione3d(Larghezza.petalo~Lunghezza.petalo+Lunghezza.sepalo|Specie, dati=iride, fit="lineare"
>residui=VERO, parallelo=FALSO, bg="Nero", asse.scale=VERO, griglia=VERO, ellissoide=FALSO)

screenshot-da-2015-07-12-00_02_26-8081474

Puoi anche realizzare grafica 3D con il pacchetto Lattice. Il reticolo può essere utilizzato anche per xyplot. Ecco il codice:

>allegare(iris)# 3d grafico a dispersione per livello di fattore
>nube(Sepalo.Lunghezza~Sepal.Larghezza*Petalo.Lunghezza|Specie, principale="3D Grafico a dispersione per specie")
>xyplot(Sepal.Larghezza ~ Sepal.Lunghezza, iris, gruppi = iris$Specie, pch= 20)

RPLOT16-8992675
RPLOT15-9787303

Correlogramma (GUI)

Il correlogramma ci aiuta a visualizzare i dati in matrici di correlazione. Ecco il codice:

> cor(iris[1:4])
 Sepal.Length Sepal.Width Petal.Length Petal.Width
 Sepal.Length    1.0000000  -0.1175698    0.8717538   0.8179411
 Sepal.Larghezza    -0.1175698   1.0000000   -0.4284401  -0.3661259
 Petal.Length    0.8717538  -0.4284401    1.0000000   0.9628654
 Petal.Larghezza     0.8179411  -0.3661259    0.9628654   1.0000000
 > corrgramma(iris)

RPLOT17-4433109

Ci sono tre pacchetti GUI principali in R. RCommander con KMggplots, Rattle per data mining e Deducer per la visualizzazione dei dati. Questi aiutano ad automatizzare molte attività.

Note finali

Mi è piaciuto molto scrivere sull'articolo e sui vari modi in cui R lo rende il miglior software di visualizzazione dei dati al mondo.. Mentre Python può progredire con seaborn e ggplot, niente batte l'immenso numero di pacchetti in R per la visualizzazione statistica dei dati.

In questo articolo, Ho discusso varie forme di visualizzazione che coprono i livelli da base a avanzato di tabelle e grafici utili per visualizzare i dati utilizzando R Programming..

Hai trovato questo articolo utile? Fatemi sapere i vostri suggerimenti nella sezione commenti qui sotto..

Se ti piace quello che hai appena letto e vuoi continuare a imparare l'analisi, iscriviti alle nostre email, Seguici su Twitter o come il nostro pagina Facebook.

Iscriviti alla nostra Newsletter

Non ti invieremo posta SPAM. Lo odiamo quanto te.