introduzione
Un'immagine vale più di mille parole!
Nell'ambiente competitivo di oggi, le aziende vogliono un processo decisionale più rapido, assicurandosi che rimangano in testa alla gara.
La visualizzazione dei dati aiuta in due fasi critiche nel processo decisionale basato sui dati (como se muestra en la siguiente figura"Figura" è un termine che viene utilizzato in vari contesti, Dall'arte all'anatomia. In campo artistico, si riferisce alla rappresentazione di forme umane o animali in sculture e dipinti. In anatomia, designa la forma e la struttura del corpo. Cosa c'è di più, in matematica, "figura" è legato alle forme geometriche. La sua versatilità lo rende un concetto fondamentale in molteplici discipline....):
In questo articolo, esploreremo il 4 applicazioni di visualizzazione dati e loro implementazione in SAS. Per una migliore comprensione, abbiamo preso dei set di dati di esempio per creare questa visualizzazione. Prossimo, vengono mostrati gli aspetti principali della visualizzazione dei dati:
- Fare il confronto: Incluye grafico a barreIl grafico a barre è una rappresentazione visiva dei dati che utilizza barre rettangolari per mostrare confronti tra diverse categorie. Ogni barra rappresenta un valore e la sua lunghezza è proporzionale ad esso. Questo tipo di grafico è utile per visualizzare e analizzare le tendenze, facilitare l'interpretazione delle informazioni quantitative. È ampiamente utilizzato in varie discipline, come le statistiche, Marketing e ricerca, Grazie alla sua semplicità ed efficacia...., grafico a lineeIl grafico a linee è uno strumento visivo utilizzato per rappresentare i dati nel tempo. È costituito da una serie di punti collegati da linee, che permette di osservare le tendenze, Fluttuazioni e modelli nei dati. Questo tipo di grafico è particolarmente utile in aree come l'economia, Meteorologia e ricerca scientifica, semplificando il confronto di diversi set di dati e l'identificazione dei comportamenti su tutta la linea.., grafico a barre, istogramma, istogramma a barre in cluster.
- rapporto di studio: Include grafico a bolle, grafico a dispersioneUn grafico a dispersione è una rappresentazione visiva che mostra la relazione tra due variabili numeriche utilizzando punti su un piano cartesiano. Ogni asse rappresenta una variabile, e la posizione di ciascun punto indica il suo valore in relazione ad entrambi. Questo tipo di grafico è utile per identificare i modelli, Correlazioni e tendenze nei dati, facilitare l'analisi e l'interpretazione delle relazioni quantitative....
- Studiare la distribuzione: Include istogramma, Diagramma di dispersioneIl grafico a dispersione è uno strumento grafico utilizzato in statistica per visualizzare la relazione tra due variabili. Consiste in un insieme di punti in un piano cartesiano, dove ogni punto rappresenta una coppia di valori corrispondenti alle variabili analizzate. Questo tipo di grafico consente di identificare i modelli, Tendenze e possibili correlazioni, facilitare l'interpretazione dei dati e il processo decisionale sulla base delle informazioni visive presentate....,
- Comprendi la composizione: Include istogramma in pila
Cominciamo!
A scopo illustrativo, useremo un set di dati 'discutere’ preso dal Discussione di Vidhya analitico. I dati contengono l'argomento di discussione, la categoria, il numero di risposte al post e il numero totale di visualizzazioni. I dati contengono i 20 argomenti principali:
1. Fare un confronto
un) Grafico a barre
UN grafico a barre, anche conosciuto come grafico a barre rappresenta dati raggruppati utilizzando barre rettangolari con lunghezze proporzionali ai valori che rappresentano. Le barre possono essere disegnate verticalmente o orizzontalmente. Un grafico a barre verticali è talvolta chiamato grafico a barre a colonne.
Illustrazione
obbiettivo: Vogliamo conoscere il numero di visualizzazioni di ogni categoria rappresentata graficamente attraverso un grafico a barre.
Codice:
proc sgplot data = discutere;
hbar category/response = views stat = sum
datalabel datalabelattrs=(peso=grassetto);
titolo 'Visualizzazioni totali per categoria';
Correre;
Produzione:
B) Istogramma
Gli istogrammi sono spesso autoesplicativi. Sono semplicemente la versione verticale di un grafico a barre in cui la lunghezza delle barre è uguale alla grandezza del valore che rappresentano.. Ecco una manovra: ruotare il grafico mostrato sopra in -90 gradi, diventerà un istogramma.
Codice:
proc sgplot data = discutere; hbar category/response = views stat = sum datalabel datalabelattrs=(peso=grassetto) larghezza barra = 0.5; /* Assign width to bars*/ title 'Total Views by Category'; Correre;
Produzione:
-> Spiegazione del codice per grafico a barre e istogramma:
- Categoria: il variabileIn statistica e matematica, un "variabile" è un simbolo che rappresenta un valore che può cambiare o variare. Esistono diversi tipi di variabili, e qualitativo, che descrivono caratteristiche non numeriche, e quantitativo, che rappresentano quantità numeriche. Le variabili sono fondamentali negli esperimenti e negli studi, poiché consentono l'analisi delle relazioni e dei modelli tra elementi diversi, facilitare la comprensione di fenomeni complessi.... según la cual se deben agrupar los datos.
- Risposta = visualizzazioni: Le statistiche specificate dall'opzione Stat = vengono calcolate per le visualizzazioni variabili raggruppate per variabile di categoria.
- L'opzione DataLabel specifica che si desidera che i valori calcolati vengano visualizzati per ogni barra.
- L'opzione Peso = Grassetto specifica che le etichette dati per ogni barra verranno visualizzate in grassetto.
- L'opzione Larghezza barra viene utilizzata per assegnare larghezza alle barre. Il valore predefinito è 0.8 e la gamma è 0.1-1.
C) Grafico a barre / istogramma raggruppato
Questo tipo di rappresentazione è utile quando vogliamo visualizzare la distribuzione dei dati in due categorie.
obbiettivo: Vogliamo analizzare le visualizzazioni totali degli argomenti nel forum di discussione per categoria e data di pubblicazione.
Codice:
dati discuss_date;
set discutere;
mese = mese(DatePubblicato);
month_name=PUT(DatePubblicato,monname.);
metti month_name= @;
Correre;
proc sgplot data=discuss_date;
vbar category/ response=views group=month_name groupdisplay=cluster
datalabel datalabelattrs = (peso = grassetto) dataskin=gloss; yaxis griglia;
Correre;
Produzione:
tuttavia, Si è verificato un problema con questa immagine, i mesi non sono in ordine cronologico. Per risolvere questo, usiamo PROC FORMAT.
Codice con PROC FORMAT:
dati discuss_date; set discutere; mese = mese(DatePubblicato); month_num = input(mese,5.); Correre;
FORMATO PROC; VALORE monthfmt 1 = 'Gennaio' 2 = 'Febbraio' 3 = 'Marzo' 4 = 'Aprile'; CORRERE;
proc sgplot data=discuss_date;
vbar category/ response=views group = month_num groupdisplay=cluster datalabel
datalabelattrs = (peso = grassetto) dataskin=gloss grouporder= ascendente;
formato month_num monthfmt.;
yaxis griglia;
Correre;
Produzione:
D) Grafico a linee
UN Grafico a linee oh grafico a linee è un tipo di grafico che visualizza informazioni quali una serie di punti dati denominati “Marcatori” collegati da segmenti di linea retta. Un grafico a linee viene spesso utilizzato per visualizzare le tendenze nei dati su intervalli di tempo., una serie temporale, quindi la linea è spesso tracciata cronologicamente. In questi casi sono noti come esegui grafici.
Per questa illustrazione, utilizzeremo i dati da PGDBA de IIT + IIM C + ISI vs Praxis Business School PGPBA.
Codice:
proc sgplot data = clic; vline data/risposta = PGDBA_IIM_ ; vline data/risposta = PGPBA_Praxis_; yaxis label = "Clic"; Correre;
Produzione:
e) Grafico a barre
Questo grafico di unione combina le caratteristiche del grafico a barre e del grafico a linee. Visualizza i dati utilizzando una serie di barre e / o linee, ognuno dei quali rappresenta una particolare categoria. Una combinazione di barre e linee nello stesso display può essere utile quando si confrontano valori in diverse categorie.
obbiettivo: Vogliamo confrontare le vendite previste con le vendite effettive per diversi periodi di tempo.
Codice:
proc sgplot data=barline;
vbar month/ response=actual_sales datalabel datalabelattrs = (peso = grassetto)
fillattrs= (colore = marrone chiaro);
vline month/ response=predicted_sales
lineattrs =(spessore = 3) Marcatori;
xaxis label= "Mese";
yaxis label = "Saldi";
keylegend / location=inside position=topleft across=1;
Correre;
Nota: I dati devono essere ordinati in base alla variabile dell'asse x.
Produzione:
2) Studia la relazione
un) Grafico a bolle
Un grafico a bolle è un tipo di grafico che visualizza tre dimensioni di dati. Ogni entità con la sua tripletta (v1, v2, v3) dei dati associati viene tracciato come un disco che esprime due delle opzioni vio valori su disco xy posizione e il terzo per dimensione. – Fonte: Wikipedia.
Dati per il sistema operativo:
Codice:
proc sgplot data = os;
bubble X=expenses Y=sales size= profit
/fillattrs=(colore = verde acqua) datalabel = Posizione;
Correre;
Produzione:
Come possiamo vedere, Esiste un record per il quale le vendite e i profitti sono massimi mentre le spese comparative sono inferiori rispetto ad altri punti dati.
B) Grafico a dispersione per la relazione
Un semplice grafico a dispersione tra due variabili può darci un'idea della relazione tra di loro.: lineare, esponenziale, eccetera. Queste informazioni possono essere utili durante ulteriori analisi.
Codice:
proc sgplot data = os;
titolo 'Rapporto di profitto con le vendite';
scatter X= sales Y = profit/
markerattrs=(symbol=circlefilled size=15);
Correre;
Produzione:
3. Studia la distribuzione
un) Istogramma
UN istogramma è una rappresentazione grafica della distribuzione dei dati numerici. È una stima della distribuzione di probabilità di una variabile continua. Per costruire un istogramma, il primo passo è “gruppo” la gamma di valori, vale a dire, dividere l'intero intervallo di valori in una serie di piccoli intervalli e quindi contare quanti valori cadono in ogni intervallo. I contenitori sono solitamente specificati come intervalli consecutivi, non sovrapposizione di una variabile. I contenitori (intervalli) deve essere adiacente e, generalmente, Le stesse dimensioni. I rettangoli in un istogramma sono disegnati in modo che si tocchino per indicare che la variabile originale è continua.
Codice:
proc sgplot data = sashelp.cars; istogramma msrp/fillattrs=(colore = acciaio)scala = proporzione; densità msrp; Correre;
Produzione:
Abbiamo usato il set di dati sashelp.mtcars qui. Un istogramma della variabile MSRP ci dà la figura precedente. Questo ci dice che la variabile MSRP è inclinata verso destra, indicando che la maggior parte dei punti dati sono sotto $ 50,000. Se pueden encontrar ideas significativas a partir de istogrammiGli istogrammi sono rappresentazioni grafiche che mostrano la distribuzione di un set di dati. Sono costruiti dividendo l'intervallo di valori in intervalli, oh "Bidoni", e il conteggio della quantità di dati che cadono in ogni intervallo. Questa visualizzazione consente di identificare i modelli, tendenze e variabilità dei dati in modo efficace, facilitare l'analisi statistica e il processo decisionale informato in varie discipline.....
B) Diagramma di dispersione
in un grafico a dispersione i dati vengono visualizzati come una raccolta di punti, ciascuno con il valore di una variabile che determina la posizione sull'asse orizzontale e il valore dell'altra variabile che determina la posizione sull'asse verticale. Può essere utilizzato sia per visualizzare la distribuzione dei dati. e accedere alla relazione tra variabili.
Nota: per illustrazione, useremo un set di dati 'discutere’ preso dal Discussione di Vidhya analitico
Codice:
proc sgplot data = discutere;
scatter X= dateposted Y = views/group=category
markerattrs=(symbol=circlefilled size=15);
Correre;
Produzione:
il SGSCATTER La procedura può essere utilizzata anche per i grafici a dispersione. Ha il vantaggio di poter produrre più grafici a dispersione. Di seguito è riportato l'output utilizzando sgcscatter:
Codice:
proc sgscatter data = discutere; confronta y = visualizzazioni x = (categoria risposte) /gruppo = mese markerattrs=(simbolo = dimensione cerchiata = 10); Correre;
Produzione:
Un uso importante del grafico a dispersione è l'interpretazione dei residui della regressione lineare. Un grafico a dispersione dei residui rispetto ai valori previsti della variabile prevista ci aiuta a determinare se i dati sono eteroschedastici o omoschedastici..
OMOSQUEDASTICO ETEROSQUEDASTICO
4) Composizione
un) Istogramma in pila:
Su un grafico a barre in pila, le barre impilate rappresentano diversi gruppi uno sopra l'altro. L'altezza della barra risultante mostra il risultato combinato dei gruppi.
Ad esempio, se vogliamo vedere le vendite totali per articolo raggruppate per posizione nei dati totali del set di dati del sistema operativo, possiamo usare l'istogramma in pila. Di seguito è l'illustrazione:
Codice:
proc sgplot data = os; titolo "Vendite effettive per posizione e articolo"; Voce vbar / response=Sales group=Location stat=percent datalabel; visualizzazione asse x=(senza etichetta); etichetta griglia asse y="Saldi"; Correre;
Produzione:
Note finali:
Le visualizzazioni diventano un modo naturale per comprendere i bulk data. Trasmettono facilmente le informazioni e facilitano lo scambio di idee con gli altri. In questo articolo, analizziamo alcune visualizzazioni base realizzabili tramite SAS base. Questi possono essere un ottimo modo per riassumere i nostri dati, ottenere informazioni, trovare relazioni, eccetera.
Hai trovato questo articolo utile? C'è qualche altra visualizzazione che hai usato che puoi condividere con il nostro pubblico?? Sentiti libero di condividerli attraverso i commenti qui sotto..