Guida alla visualizzazione dei dati per SAS

Contenuti

introduzione

Un'immagine vale più di mille parole!

Nell'ambiente competitivo di oggi, le aziende vogliono un processo decisionale più rapido, assicurandosi che rimangano in testa alla gara.

La visualizzazione dei dati aiuta in due fasi critiche nel processo decisionale basato sui dati (Come mostrato nella figura successiva):

1-3401181

In questo articolo, esploreremo il 4 applicazioni di visualizzazione dati e loro implementazione in SAS. Per una migliore comprensione, abbiamo preso dei set di dati di esempio per creare questa visualizzazione. Prossimo, vengono mostrati gli aspetti principali della visualizzazione dei dati:

  1. Fare il confronto: Include grafico a barre, grafico a linee, grafico a barre, istogramma, istogramma a barre in cluster.
  2. rapporto di studio: Include grafico a bolle, grafico a dispersione
  3. Studiare la distribuzione: Include istogramma, Diagramma di dispersione,
  4. Comprendi la composizione: Include istogramma in pila

s285_sas100k_tptk40k_horiz-3223182

Cominciamo!

A scopo illustrativo, useremo un set di dati 'discutere’ preso dal Discussione di Vidhya analitico. I dati contengono l'argomento di discussione, la categoria, il numero di risposte al post e il numero totale di visualizzazioni. I dati contengono i 20 argomenti principali:

2-9488437

1. Fare un confronto

un) Grafico a barre

UN grafico a barre, anche conosciuto come grafico a barre rappresenta dati raggruppati utilizzando barre rettangolari con lunghezze proporzionali ai valori che rappresentano. Le barre possono essere disegnate verticalmente o orizzontalmente. Un grafico a barre verticali è talvolta chiamato grafico a barre a colonne.

Illustrazione

obbiettivo: Vogliamo conoscere il numero di visualizzazioni di ogni categoria rappresentata graficamente attraverso un grafico a barre.

Codice:

proc sgplot data = discutere;
     hbar category/response = views stat = sum
                           datalabel datalabelattrs=(peso=grassetto);
     titolo 'Visualizzazioni totali per categoria';
Correre;       

Produzione:

3-8260339

B) Istogramma

Gli istogrammi sono spesso autoesplicativi. Sono semplicemente la versione verticale di un grafico a barre in cui la lunghezza delle barre è uguale alla grandezza del valore che rappresentano.. Ecco una manovra: ruotare il grafico mostrato sopra in -90 gradi, diventerà un istogramma.

Codice:

proc sgplot data = discutere;
     hbar category/response = views stat = sum
                    datalabel datalabelattrs=(peso=grassetto) larghezza barra = 0.5; /* Assign width to bars*/
    title 'Total Views by Category';
Correre;

Produzione:

4-1542470

-> Spiegazione del codice per grafico a barre e istogramma:

  • Categoria: la variabile in base alla quale i dati devono essere raggruppati.
  • Risposta = visualizzazioni: Le statistiche specificate dall'opzione Stat = vengono calcolate per le visualizzazioni variabili raggruppate per variabile di categoria.
  • L'opzione DataLabel specifica che si desidera che i valori calcolati vengano visualizzati per ogni barra.
  • L'opzione Peso = Grassetto specifica che le etichette dati per ogni barra verranno visualizzate in grassetto.
  • L'opzione Larghezza barra viene utilizzata per assegnare larghezza alle barre. Il valore predefinito è 0.8 e la gamma è 0.1-1.

C) Grafico a barre / istogramma raggruppato

Questo tipo di rappresentazione è utile quando vogliamo visualizzare la distribuzione dei dati in due categorie.

obbiettivo: Vogliamo analizzare le visualizzazioni totali degli argomenti nel forum di discussione per categoria e data di pubblicazione.

Codice:

dati discuss_date;
set discutere;
mese = mese(DatePubblicato);
month_name=PUT(DatePubblicato,monname.);
  metti month_name= @;
Correre;
proc sgplot data=discuss_date;
    vbar category/ response=views group=month_name groupdisplay=cluster
                 datalabel datalabelattrs = (peso = grassetto) dataskin=gloss; yaxis griglia;
Correre;

Produzione:

5-7067307

tuttavia, Si è verificato un problema con questa immagine, i mesi non sono in ordine cronologico. Per risolvere questo, usiamo PROC FORMAT.

Codice con PROC FORMAT:

dati discuss_date;
set discutere;
mese = mese(DatePubblicato);
month_num = input(mese,5.);
Correre;
FORMATO PROC;
   VALORE monthfmt
        1 = 'Gennaio'
        2 = 'Febbraio'
        3 = 'Marzo' 
        4 = 'Aprile';
CORRERE;
proc sgplot data=discuss_date;
  vbar category/ response=views group = month_num groupdisplay=cluster datalabel 
                    datalabelattrs = (peso = grassetto) dataskin=gloss grouporder= ascendente;
   formato month_num monthfmt.;
  yaxis griglia;
Correre;

Produzione:

immagine-2787110

D) Grafico a linee

UN Grafico a linee oh grafico a linee è un tipo di grafico che visualizza informazioni quali una serie di punti dati denominati “Marcatori” collegati da segmenti di linea retta. Un grafico a linee viene spesso utilizzato per visualizzare le tendenze nei dati su intervalli di tempo., una serie temporale, quindi la linea è spesso tracciata cronologicamente. In questi casi sono noti come esegui grafici.

Per questa illustrazione, utilizzeremo i dati da PGDBA de IIT + IIM C + ISI vs Praxis Business School PGPBA.

6-2771423

Codice:

proc sgplot data = clic;
     vline data/risposta = PGDBA_IIM_ ;
     vline data/risposta = PGPBA_Praxis_;
     yaxis label = "Clic";
Correre;

Produzione:

7-1898556

e) Grafico a barre

Questo grafico di unione combina le caratteristiche del grafico a barre e del grafico a linee. Visualizza i dati utilizzando una serie di barre e / o linee, ognuno dei quali rappresenta una particolare categoria. Una combinazione di barre e linee nello stesso display può essere utile quando si confrontano valori in diverse categorie.

obbiettivo: Vogliamo confrontare le vendite previste con le vendite effettive per diversi periodi di tempo.
nullo

8-9423826

Codice:

proc sgplot data=barline;
  vbar month/ response=actual_sales datalabel datalabelattrs = (peso = grassetto)
                   fillattrs= (colore = marrone chiaro);
  vline month/ response=predicted_sales
                 lineattrs =(spessore = 3) Marcatori;
  xaxis label= "Mese";
  yaxis label = "Saldi";
  keylegend / location=inside position=topleft across=1;
  Correre;

Nota: I dati devono essere ordinati in base alla variabile dell'asse x.

Produzione:

9-4831185

2) Studia la relazione

un) Grafico a bolle

Un grafico a bolle è un tipo di grafico che visualizza tre dimensioni di dati. Ogni entità con la sua tripletta (v1, v2, v3) dei dati associati viene tracciato come un disco che esprime due delle opzioni vio valori su disco xy posizione e il terzo per dimensione. – Fonte: Wikipedia.

Dati per il sistema operativo:

11-6054199

Codice:

proc sgplot data = os;
     bubble X=expenses Y=sales size= profit
     /fillattrs=(colore = verde acqua) datalabel = Posizione;
Correre;

Produzione:

grafico a bolle2-1161279

Come possiamo vedere, Esiste un record per il quale le vendite e i profitti sono massimi mentre le spese comparative sono inferiori rispetto ad altri punti dati.

B) Grafico a dispersione per la relazione

Un semplice grafico a dispersione tra due variabili può darci un'idea della relazione tra di loro.: lineare, esponenziale, eccetera. Queste informazioni possono essere utili durante ulteriori analisi.

Codice:

proc sgplot data = os;
    titolo 'Rapporto di profitto con le vendite';
    scatter X= sales Y = profit/
                     markerattrs=(symbol=circlefilled size=15);
Correre;

Produzione:

16-2778618

3. Studia la distribuzione

un) Istogramma

UN istogramma è una rappresentazione grafica della distribuzione dei dati numerici. È una stima della distribuzione di probabilità di una variabile continua. Per costruire un istogramma, il primo passo è “gruppo” la gamma di valori, vale a dire, dividere l'intero intervallo di valori in una serie di piccoli intervalli e quindi contare quanti valori cadono in ogni intervallo. I contenitori sono solitamente specificati come intervalli consecutivi, non sovrapposizione di una variabile. I contenitori (intervalli) deve essere adiacente e, generalmente, Le stesse dimensioni. I rettangoli in un istogramma sono disegnati in modo che si tocchino per indicare che la variabile originale è continua.

Codice:

proc sgplot data = sashelp.cars;
     istogramma msrp/fillattrs=(colore = acciaio)scala = proporzione;
     densità msrp;
Correre;

Produzione:

10-5730340

Abbiamo usato il set di dati sashelp.mtcars qui. Un istogramma della variabile MSRP ci dà la figura precedente. Questo ci dice che la variabile MSRP è inclinata verso destra, indicando che la maggior parte dei punti dati sono sotto $ 50,000. Intuizioni significative possono essere trovate dagli istogrammi.

B) Diagramma di dispersione

in un grafico a dispersione i dati vengono visualizzati come una raccolta di punti, ciascuno con il valore di una variabile che determina la posizione sull'asse orizzontale e il valore dell'altra variabile che determina la posizione sull'asse verticale. Può essere utilizzato sia per visualizzare la distribuzione dei dati. e accedere alla relazione tra variabili.

Nota: per illustrazione, useremo un set di dati 'discutere’ preso dal Discussione di Vidhya analitico

Codice:

proc sgplot data = discutere;
     scatter X= dateposted Y = views/group=category
                    markerattrs=(symbol=circlefilled size=15);
Correre;

Produzione:

13-2566000

il SGSCATTER La procedura può essere utilizzata anche per i grafici a dispersione. Ha il vantaggio di poter produrre più grafici a dispersione. Di seguito è riportato l'output utilizzando sgcscatter:

Codice:

proc sgscatter data = discutere;
     confronta y = visualizzazioni x = (categoria risposte)
               /gruppo = mese markerattrs=(simbolo = dimensione cerchiata = 10);
Correre;

Produzione:

14-5855286

Un uso importante del grafico a dispersione è l'interpretazione dei residui della regressione lineare. Un grafico a dispersione dei residui rispetto ai valori previsti della variabile prevista ci aiuta a determinare se i dati sono eteroschedastici o omoschedastici..

OMOSQUEDASTICO ETEROSQUEDASTICO

15-9879157

4) Composizione

un) Istogramma in pila:

Su un grafico a barre in pila, le barre impilate rappresentano diversi gruppi uno sopra l'altro. L'altezza della barra risultante mostra il risultato combinato dei gruppi.

Ad esempio, se vogliamo vedere le vendite totali per articolo raggruppate per posizione nei dati totali del set di dati del sistema operativo, possiamo usare l'istogramma in pila. Di seguito è l'illustrazione:

Codice:

proc sgplot data = os;
  titolo "Vendite effettive per posizione e articolo";
  Voce vbar / response=Sales group=Location stat=percent datalabel;
  visualizzazione asse x=(senza etichetta);
  etichetta griglia asse y="Saldi";
Correre;

Produzione:

17-7605572

Note finali:

Le visualizzazioni diventano un modo naturale per comprendere i bulk data. Trasmettono facilmente le informazioni e facilitano lo scambio di idee con gli altri. In questo articolo, analizziamo alcune visualizzazioni base realizzabili tramite SAS base. Questi possono essere un ottimo modo per riassumere i nostri dati, ottenere informazioni, trovare relazioni, eccetera.

Hai trovato questo articolo utile? C'è qualche altra visualizzazione che hai usato che puoi condividere con il nostro pubblico?? Sentiti libero di condividerli attraverso i commenti qui sotto..

Se ti piace quello che hai appena letto e vuoi continuare a imparare l'analisi, iscriviti alle nostre email, Seguici su Twitter o come il nostro pagina Facebook.

Iscriviti alla nostra Newsletter

Non ti invieremo posta SPAM. Lo odiamo quanto te.