Diamo un'occhiata a questo grafico per un secondo.,
Questa visualizzazione (originariamente creato con Tableau) è un ottimo esempio di come la visualizzazione dei dati può aiutare i decisori. Immagina di raccontare queste informazioni a un investitore attraverso una tabella. Quanto tempo pensi che ci vorrà per spiegare?
Con un volume di dati sempre crescente nel mondo di oggi, è impossibile raccontare storie senza queste visualizzazioni. Sebbene ci siano strumenti dedicati come Tableau, QlikView e d3.js, niente può sostituire gli strumenti di modellazione / statistiche con una buona capacità di visualizzazione. È di grande aiuto per eseguire qualsiasi analisi esplorativa dei dati, così come l'ingegneria delle funzioni. È qui che R offre un aiuto incredibile.
R Programming offre un insieme soddisfacente di funzioni e librerie integrate (come ggplot2, informazioni utente, reticolo) per creare visualizzazioni e presentare dati. In questo articolo, Ho coperto i passaggi per creare visualizzazioni comuni e avanzate in R Programming. Ma, prima di raggiungerli, diamo un rapido sguardo alla breve storia della visualizzazione dei dati. Se non sei interessato alla storia, puoi tranquillamente passare alla sezione successiva.
Una breve storia della visualizzazione dei dati:
Storicamente, la visualizzazione dei dati si è evoluta grazie al lavoro di importanti professionisti. Il fondatore dei metodi grafici nelle statistiche è William Playfair. William Playfair ha inventato quattro tipi di grafica: il grafico a lineeEl gráfico de líneas es una herramienta visual utilizada para representar datos a lo largo del tiempo. Consiste en una serie de puntos conectados por líneas, lo que permite observar tendencias, fluctuaciones y patrones en los datos. Este tipo de gráfico es especialmente útil en áreas como la economía, la meteorología y la investigación científica, facilitando la comparación de diferentes conjuntos de datos y la identificación de comportamientos a lo..., il grafico a barreEl gráfico de barras es una representación visual de datos que utiliza barras rectangulares para mostrar comparaciones entre diferentes categorías. Cada barra representa un valor y su longitud es proporcional a este. Este tipo de gráfico es útil para visualizar y analizar tendencias, facilitando la interpretación de información cuantitativa. Es ampliamente utilizado en diversas disciplinas, como la estadística, el marketing y la investigación, debido a su simplicidad y efectividad.... de datos económicos, il Grafico a tortaEl gráfico circular, también conocido como diagrama de sectores, es una representación visual que muestra la proporción de diferentes partes respecto a un todo. Se utiliza comúnmente en estadísticas para ilustrar la distribución de datos categóricos. Cada sección del gráfico representa un porcentaje del total, facilitando la comparación entre categorías. Su diseño claro y conciso lo convierte en una herramienta efectiva para la presentación de información cuantitativa.... y el gráfico circular. Joseph Priestly aveva creato l'innovazione dei primi grafici della timeline, dove le singole barre venivano utilizzate per visualizzare la durata della vita di una persona (1765). Ecco com'è, Le tempistiche sono state inventate fa 250 anni e non da Facebook!
Tra le prime visualizzazioni dei dati più famose c'è la Marcia di Napoleone, come descritto Charles Minard. La visualizzazione dei dati include ampie informazioni sull'effetto della temperatura sull'invasione della Russia da parte di Napoleone insieme alle scale temporali. Il grafico si distingue per la sua rappresentazione in due dimensioni di sei tipi di dati: il numero delle truppe di Napoleone; distanza; temperatura; latitudine e longitudine; senso di marcia; e posizione relativa a date specifiche
Florence Nightangle è stata anche una pioniera nella visualizzazione dei dati. Drew Coxcomb grafici per rappresentare l'effetto della malattia sulla mortalità delle truppe (1858). L'uso delle mappe nella grafica o nell'analisi spaziale è stato introdotto da John Snow (¡no de Il Trono di Spade!). Era una mappa dei decessi per un'epidemia di colera a Londra, 1854, in relazione all'ubicazione delle pompe dell'acqua pubblica e ha contribuito a identificare l'epidemia in una singola pompa.
Visualizzazione dei dati in R:
In questo articolo, creeremo le seguenti visualizzazioni:
Visualizzazione di base
- Istogramma
- Grafico a barre / Linee
- Trama scatola
- Grafico a dispersioneUn gráfico de dispersión es una representación visual que muestra la relación entre dos variables numéricas mediante puntos en un plano cartesiano. Cada eje representa una variable, y la ubicación de cada punto indica su valor en relación con ambas. Este tipo de gráfico es útil para identificar patrones, correlaciones y tendencias en los datos, facilitando el análisis y la interpretación de relaciones cuantitativas....
Visualizzazione avanzata
- Mappa di caloreun "mappa di calore" es una representación gráfica que utiliza colores para mostrar la densidad de datos en un área específica. Comúnmente utilizado en análisis de datos, marketing y estudios de comportamiento, este tipo de visualización permite identificar patrones y tendencias rápidamente. A través de variaciones cromáticas, los mapas de calor facilitan la interpretación de grandes volúmenes de información, ayudando a la toma de decisiones informadas....
- Mappa mosaico
- Visualizzazione della mappa
- Grafica 3D
- Correlogramma
Suggerimento R: il Dati storici Il pacchetto fornisce una raccolta di piccoli set di dati interessanti e importanti nella storia delle statistiche e della visualizzazione dei dati..
VISUALIZZAZIONI DI BASE
Note veloci:
- La grafica di base in R può essere creata abbastanza facilmente. il trama comando è il comando da considerare.
- Toma muchos parametriIl "parametri" sono variabili o criteri che vengono utilizzati per definire, misurare o valutare un fenomeno o un sistema. In vari campi come la statistica, Informatica e Ricerca Scientifica, I parametri sono fondamentali per stabilire norme e standard che guidano l'analisi e l'interpretazione dei dati. La loro corretta selezione e gestione sono fondamentali per ottenere risultati accurati e pertinenti in qualsiasi studio o progetto.... de datos del eje x, dati dell'asse y, etichette dell'asse x, etichette dell'asse y, colore e titolo. Per creare grafici a linee, basta usare il parametro, tipo = l.
- Se vuoi un box plot, puoi usare il word box plot e, per grafico a barre, usa la funzione grafico a barre.
1. Istogramma
L'istogramma è fondamentalmente un grafico che divide i dati in contenitori (le pause) e mostra la distribuzione di frequenza di questi contenitori. Puoi anche modificare le pause e vedere l'effetto che la visualizzazione dei dati ha in termini di comprensibilità.
Lasciate che vi faccia un esempio.
Nota: Abbiamo usato il comando par (mfrow = c (2,5)) per adattare più elementi grafici sulla stessa pagina per maggiore chiarezza (vedi il codice qui sotto).
I seguenti comandi lo mostrano in un modo migliore. Nel seguente codice, il principale L'opzione imposta il titolo del grafico e il colonna opción llama en la TavolozzaLa palette colori è uno strumento fondamentale nella progettazione grafica e nella decorazione. Consiste in una selezione di colori che vengono utilizzati in modo armonioso per creare un'atmosfera specifica o trasmettere emozioni. Esistono diverse teorie del colore che aiutano a scegliere combinazioni efficaci, come la ruota dei colori e il contrasto. Una palette ben definita può migliorare l'estetica e la comunicazione visiva di un progetto.... de RColorBrewer para establecer los colores.
biblioteca(RColorBrewer)
dati(VAmorti) attraverso(mfrow=c(2,3)) storico(VAmorti,pause=10, col=brewer.pal(3,"Set3"),principale="Set3 3 colori") storico(VAmorti,pause=3 ,col=brewer.pal(3,"Set2"),principale="Set2 3 colori") storico(VAmorti,pause=7, col=brewer.pal(3,"Set1"),principale="Set1 3 colori") storico(VAmorti,,pause= 2, col=brewer.pal(8,"Set3"),principale="Set3 8 colori") storico(VAmorti,col=brewer.pal(8,"Grigi"),principale="Grigi 8 colori") storico(VAmorti,col=brewer.pal(8,"verdi"),principale="verdi 8 colori")
Nota che se il numero di interruzioni è inferiore al numero di colori specificato, i colori vanno solo a valori estremi come nel grafico “Stabilire 3 8 colori”. Se il numero di tagli è maggiore del numero di colori, i colori iniziano a ripetersi come nella prima riga.
2. Grafico a barre / Linee
Grafico a linee
Di seguito è riportato il grafico a linee che mostra l'aumento dei passeggeri aerei in un determinato periodo di tempo. I grafici a linee sono comunemente preferiti quando analizzeremo una tendenza che si estende su un periodo di tempo.. Cosa c'è di più, el gráfico de líneas también es adecuado para gráficos en los que necesitamos comparar cambios relativos en cantidades a través de alguna variabileIn statistica e matematica, un "variabile" è un simbolo che rappresenta un valore che può cambiare o variare. Esistono diversi tipi di variabili, e qualitativo, che descrivono caratteristiche non numeriche, e quantitativo, che rappresentano quantità numeriche. Le variabili sono fondamentali negli esperimenti e negli studi, poiché consentono l'analisi delle relazioni e dei modelli tra elementi diversi, facilitare la comprensione di fenomeni complessi.... (come il tempo). Di seguito è riportato il codice:
complotto(AirPassengers,tipo="io") #Grafico a linea semplice
Grafico a barre
I grafici a barre sono adatti per mostrare il confronto tra i totali cumulativi di vari gruppi. I grafici in pila vengono utilizzati per i grafici a barre per varie categorie. Ecco il codice:
barplot(iris$Petal.Lunghezza) #Creating simple Bar Graph
barplot(iris$Sepal.Lunghezza,col = brewer.pal(3,"Set1"))
barplot(tavolo(iris$Specie,iris$Sepal.Lunghezza),col = brewer.pal(3,"Set1")) #Trama impilata
3. Trama scatola (inclusa l'opzione per raggruppare)
Il diagramma della scatola mostra 5 numeri statisticamente significativi: il minimo, il percentile 25, il medianoLa mediana è una misura statistica che rappresenta il valore centrale di un insieme di dati ordinati. Per calcolarlo, I dati sono organizzati dal più basso al più alto e viene identificato il numero al centro. Se c'è un numero pari di osservazioni, I due valori fondamentali sono mediati. Questo indicatore è particolarmente utile nelle distribuzioni asimmetriche, poiché non è influenzato da valori estremi...., il percentile 75 e il massimo. Perciò, è utile per visualizzare l'estensione dei dati e ricavare di conseguenza le inferenze. Ecco il codice base:
trama a scatole(iris$Petal.Length~iris$Specie) #Creazione di box plot tra due variabili
Comprendiamo il codice qui sotto:
Nel seguente esempio, Fatto 4 grafica su uno schermo. Quando si utilizza il segno ~, Posso visualizzare come è la propagazione (lunghezza del sepalo) in varie categorie (specie). Negli ultimi due grafici ho mostrato l'esempio delle tavolozze dei colori. Una tavolozza di colori è un gruppo di colori che viene utilizzato per rendere il grafico più attraente e per aiutare a creare distinzioni visive nei dati..
dati(iris) attraverso(mfrow=c(2,2)) trama a scatole(iris$Sepal.Lunghezza,col="rosso") trama a scatole(iris$Sepal.Lunghezza~iris$Specie,col="rosso") oxplot(iris$Sepal.Lunghezza~iris$Specie,col=calore.colori(3)) trama a scatole(iris$Sepal.Lunghezza~iris$Specie,col=topo.colors(3))
Per ulteriori informazioni sull'utilizzo delle tavolozze dei colori in R, visita qui.
4. Grafico a dispersione (incluso 3D e altre funzionalità)
I grafici a dispersione aiutano a visualizzare i dati facilmente e per una semplice ispezione dei dati. Aquí está el código para el Diagramma di dispersioneIl grafico a dispersione è uno strumento grafico utilizzato in statistica per visualizzare la relazione tra due variabili. Consiste in un insieme di punti in un piano cartesiano, dove ogni punto rappresenta una coppia di valori corrispondenti alle variabili analizzate. Questo tipo di grafico consente di identificare i modelli, Tendenze e possibili correlazioni, facilitare l'interpretazione dei dati e il processo decisionale sulla base delle informazioni visive presentate.... simple y multivariado:
complotto(x=iris$Petalo.Lunghezza) #Grafico a dispersione semplice
complotto(x=iris$Petalo.Lunghezza,y = iride $ Specie) #Grafico a dispersione multivariato
Scatter PlotUn diagrama de dispersión es una representación gráfica que muestra la relación entre dos variables. Cada punto en el gráfico corresponde a un par de valores, lo que permite identificar patrones, tendencias o correlaciones. Esta herramienta es útil en diversas disciplinas, como la estadística y la investigación científica, ya que facilita el análisis visual de datos y la comprensión de la relación entre los elementos estudiados.... Matrix puede ayudar a visualizar múltiples variables entre sí.
complotto(iris,col=brewer.pal(3,"Set1"))
Potresti pensare che non ho incluso i grafici a torta nell'elenco dei grafici di base. Questo è intenzionale, Non perdere. Questo perché i professionisti della visualizzazione dei dati disapprovano l'utilizzo di grafici a torta per rappresentare i dati.. Questo perché l'occhio umano non può visualizzare le distanze circolari con la stessa precisione della distanza lineare.. In poche parole, tutto ciò che può essere inserito in un grafico a torta è rappresentato al meglio come un grafico a linee. tuttavia, se ti piace il grafico a torta, Stati Uniti d'America:
torta(tavolo(iris$Specie))
Ecco un elenco completo di tutti i grafici che abbiamo imparato finora:
Potresti averlo notato in alcune delle classifiche, i suoi titoli sono stati troncati perché ho messo troppe grafiche sullo stesso schermo. Per cambiarlo, puoi semplicemente cambiare il parametro 'mfrow'’ per la coppia.
Visualizzazioni avanzate
Che cos'è Hexbin Binning??
Possiamo usare il pacchetto hexbin nel caso abbiamo più punti nello stesso posto (trama eccessiva). Il raggruppamentoIl "raggruppamento" es un concepto que se refiere a la organización de elementos o individuos en grupos con características o objetivos comunes. Este proceso se utiliza en diversas disciplinas, incluyendo la psicología, la educación y la biología, para facilitar el análisis y la comprensión de comportamientos o fenómenos. En el ámbito educativo, ad esempio, el agrupamiento puede mejorar la interacción y el aprendizaje entre los estudiantes al fomentar el trabajo... hexagonal es una forma de histograma bivariado útil para visualizar la estructura en conjuntos de datos con n grande. Ecco il codice:
>biblioteca(hexbin) >a=hexbin(diamanti$prezzo,diamanti $ carati,xbins=40) >biblioteca(RColorBrewer) >complotto(un)
Possiamo anche creare una tavolozza di colori e quindi utilizzare la funzione di stampa di hexbin per un migliore effetto visivo. Ecco il codice:
>biblioteca(RColorBrewer) >rf <- colorRampPalette(rev(birraio.pal(40,'Set3'))) >hexbinplot(diamanti$prezzo~diamanti$carati, dati=diamanti, colramp=rf)
trama a mosaico
Un grafico a mosaico può essere utilizzato per tracciare dati categorici in modo molto efficace con l'area dei dati che mostra le proporzioni relative.
> dati(CapelliOcchiColore) > trama del mosaico(CapelliOcchiColore)
Mappa di calore
Los mapas de calor le permiten realizar análisis de datos exploratorios con dos dimensiones como eje y la tercera dimensione"Dimensione" È un termine che viene utilizzato in varie discipline, come la fisica, Matematica e filosofia. Si riferisce alla misura in cui un oggetto o un fenomeno può essere analizzato o descritto. In fisica, ad esempio, Si parla di dimensioni spaziali e temporali, mentre in matematica può riferirsi al numero di coordinate necessarie per rappresentare uno spazio. Comprenderlo è fondamentale per lo studio e... mostrada por la intensidad del color. tuttavia, devi convertire il set di dati in un formato array. Ecco il codice:
> mappa di calore(come.matrice(mtcars))
Puoi usare il comando immagine () anche per questo tipo di visualizzazione like:
> Immagine(come.matrice(B[2:7]))
Come riassumere molti dati?
È possibile utilizzare la funzione tableplot del pacchetto tabplot per riepilogare rapidamente una grande quantità di dati
Visualizzazione della mappa
L'ultima novità di R è la visualizzazione dei dati tramite librerie Javascript. Opuscolo è una delle librerie JavaScript open source più popolari per mappe interattive. Si basa su https://rstudio.github.io/leaflet/
Puoi installarlo direttamente da github usando:
devtools::install_github("rstudio/volantino")
Il codice della mappa sopra è abbastanza semplice:
biblioteca(magrittr)
biblioteca(dépliant)
m <- dépliant() %>%
addTiles() %>% # Add default OpenStreetMap map tiles
addMarkers(lng=77,2310, lat=28,6560, popup="Il delizioso cibo di chandni chowk")
m # Stampa la mappa
Grafica 3D
Uno dei modi più semplici per impressionare qualcuno con le capacità di R è creare una grafica 3D in R senza scrivere NESSUNA riga di codice e in 3 minuti. È troppo chiedere?
Utilizziamo il pacchetto R Commander che funge da interfaccia utente grafica (GUI). Ecco i passaggi:
- Basta installare il pacchetto Rcmdr
- Usa l'opzione di stampa 3D all'interno dei grafici
Il seguente codice non è scritto dall'utente, ma viene generato automaticamente.
Nota: Quando scambiamo gli assi del grafico, dovresti vedere i grafici con il rispettivo codice come passiamo le etichette degli assi usando xlab, ylab, e il titolo del grafico usando Main e color usando il parametro col.
>dati(iris, pacchetto="set di dati") >dispersione3d(Larghezza.petalo~Lunghezza.petalo+Lunghezza.sepalo|Specie, dati=iride, fit="lineare" >residui=VERO, parallelo=FALSO, bg="Nero", asse.scale=VERO, griglia=VERO, ellissoide=FALSO)
Puoi anche realizzare grafica 3D con il pacchetto Lattice. Il reticolo può essere utilizzato anche per xyplot. Ecco il codice:
>allegare(iris)# 3d grafico a dispersione per livello di fattore >nube(Sepalo.Lunghezza~Sepal.Larghezza*Petalo.Lunghezza|Specie, principale="3D Grafico a dispersione per specie") >xyplot(Sepal.Larghezza ~ Sepal.Lunghezza, iris, gruppi = iris$Specie, pch= 20)
Correlogramma (GUI)
Il correlogramma ci aiuta a visualizzare i dati in matrici di correlazione. Ecco il codice:
> cor(iris[1:4])
Sepal.Length Sepal.Width Petal.Length Petal.Width
Sepal.Length 1.0000000 -0.1175698 0.8717538 0.8179411
Sepal.Larghezza -0.1175698 1.0000000 -0.4284401 -0.3661259
Petal.Length 0.8717538 -0.4284401 1.0000000 0.9628654
Petal.Larghezza 0.8179411 -0.3661259 0.9628654 1.0000000
> corrgramma(iris)
Ci sono tre pacchetti GUI principali in R. RCommander con KMggplots, Rattle per data mining e Deducer per la visualizzazione dei dati. Questi aiutano ad automatizzare molte attività.
Note finali
Mi è piaciuto molto scrivere sull'articolo e sui vari modi in cui R lo rende il miglior software di visualizzazione dei dati al mondo.. Mentre Python può progredire con seaborn e ggplot, niente batte l'immenso numero di pacchetti in R per la visualizzazione statistica dei dati.
In questo articolo, Ho discusso varie forme di visualizzazione che coprono i livelli da base a avanzato di tabelle e grafici utili per visualizzare i dati utilizzando R Programming..
Hai trovato questo articolo utile? Fatemi sapere i vostri suggerimenti nella sezione commenti qui sotto..
Se ti piace quello che hai appena letto e vuoi continuare a imparare l'analisi, iscriviti alle nostre email, Seguici su Twitter o come il nostro pagina Facebook.
Imparentato
Articoli correlati:
- Visualizzazione dati | Guida alla visualizzazione dei dati per principianti
- Visualizzazione dei dati in Python | Visualizzazione dei dati per principianti
- Strumenti di visualizzazione dei dati | I migliori strumenti di visualizzazione dei dati da padroneggiare 2021
- Esempi di visualizzazione di dati errati | Esempi di visualizzazione di dati errati