introduction
Une image vaut mieux que mille mots!
Dans l'environnement concurrentiel d'aujourd'hui, les entreprises veulent un processus décisionnel plus rapide, s'assurer qu'ils restent en tête de la course.
La visualisation des données aide à deux étapes critiques du processus de décision basé sur les données (como se muestra en la siguiente chiffre"Chiffre" est un terme utilisé dans divers contextes, De l’art à l’anatomie. Dans le domaine artistique, fait référence à la représentation de formes humaines ou animales dans des sculptures et des peintures. En anatomie, désigne la forme et la structure du corps. En outre, en mathématiques, "chiffre" Il est lié aux formes géométriques. Sa polyvalence en fait un concept fondamental dans de multiples disciplines....):
Dans cet article, nous allons explorer le 4 applications de visualisation de données et leur implémentation en SAS. Pour une meilleure compréhension, nous avons pris des exemples d'ensembles de données pour créer cette visualisation. Ensuite, les principaux aspects de la visualisation des données sont présentés:
- Faire une comparaison: Il comprend graphique à barresLe graphique à barres est une représentation visuelle des données qui utilise des barres rectangulaires pour montrer des comparaisons entre différentes catégories. Chaque barre représente une valeur et sa longueur est proportionnelle à celle-ci. Ce type de graphique est utile pour visualiser et analyser les tendances, faciliter l’interprétation des informations quantitatives. Il est largement utilisé dans diverses disciplines, tels que les statistiques, Marketing et recherche, En raison de sa simplicité et de son efficacité...., graphique linéaireLe graphique linéaire est un outil visuel utilisé pour représenter les données au fil du temps. Il se compose d’une série de points reliés par des droites, qui vous permet d’observer les tendances, Fluctuations et modèles dans les données. Ce type de graphique est particulièrement utile dans des domaines tels que l’économie, Météorologie et recherche scientifique, ce qui facilite la comparaison de différents ensembles de données et l’identification des comportements à tous les niveaux.., graphique à barres, histogramme, histogramme à barres groupées.
- Relation d'étude: Comprend un graphique à bulles, nuage de pointsUn nuage de points est une représentation visuelle qui montre la relation entre deux variables numériques à l’aide de points sur un plan cartésien. Chaque axe représente une variable, et l’emplacement de chaque point indique sa valeur par rapport aux deux. Ce type de graphique est utile pour identifier des modèles, Corrélations et tendances dans les données, faciliter l’analyse et l’interprétation des relations quantitatives....
- Étudier la distribution: Comprend un histogramme, Diagramme de dispersionLe nuage de points est un outil graphique utilisé en statistiques pour visualiser la relation entre deux variables. Il se compose d’un ensemble de points dans un plan cartésien, où chaque point représente une paire de valeurs correspondant aux variables analysées. Ce type de graphique vous permet d’identifier des modèles, Tendances et corrélations possibles, faciliter l’interprétation des données et la prise de décision sur la base des informations visuelles présentées....,
- Comprendre la composition: Comprend un graphique à colonnes empilées
Commençons!
A des fins d'illustration, nous utiliserons un ensemble de données 'pour discuter’ tiré de la Vidhya analytique Discuter. Les données contiennent le sujet de discussion, la catégorie, le nombre de réponses à la publication et le nombre total de vues. Les données contiennent les 20 sujets principaux:
1. Faire une comparaison
une) Graphique à barres
UNE graphique à barres, Aussi connu comme graphique à barres représente des données regroupées à l'aide de barres rectangulaires de longueurs proportionnelles aux valeurs qu'elles représentent. Les barres peuvent être dessinées verticalement ou horizontalement. Un histogramme vertical est parfois appelé histogramme à colonnes.
Illustration
Cibler: On veut connaître le nombre de vues de chaque catégorie représentée graphiquement à travers un histogramme.
Code:
données proc sgplot = discuter;
hbar category/response = views stat = sum
datalabel datalabelattrs=(poids=gras);
titre 'Nombre total de vues par catégorie';
Cours;
Production:
B) Graphique à colonnes
Les histogrammes sont souvent explicites. Ils sont simplement la version verticale d'un graphique à barres où la longueur des barres est égale à l'amplitude de la valeur qu'elles représentent. Voici une manoeuvre: transformer le graphique ci-dessus en -90 degrés, deviendra un histogramme.
Code:
données proc sgplot = discuter; catégorie/réponse hbar = statistiques de vues = somme datalabel datalabelattrs=(poids=gras) largeur de barre = 0.5; /* Attribuer de la largeur aux barres*/ title 'Total des vues par catégorie'; Cours;
Production:
-> Explication du code du graphique à barres et du graphique à colonnes:
- Catégorie: la variableEn statistique et en mathématiques, ongle "variable" est un symbole qui représente une valeur qui peut changer ou varier. Il existe différents types de variables, et qualitatif, qui décrivent des caractéristiques non numériques, et quantitatif, représentation de grandeurs numériques. Les variables sont fondamentales dans les expériences et les études, puisqu’ils permettent l’analyse des relations et des modèles entre différents éléments, faciliter la compréhension de phénomènes complexes.... según la cual se deben agrupar los datos.
- Réponse = vues: les statistiques spécifiées par stat = option sont calculées pour les vues de variables regroupées par variable de catégorie.
- L'option Datalabel spécifie que nous voulons que les valeurs calculées soient affichées pour chaque barre.
- L'option Poids = gras spécifie que les étiquettes de données pour chaque barre seront affichées en gras.
- L'option largeur de barre est utilisée pour attribuer une largeur aux barres. La valeur par défaut est 0.8 et la gamme est 0.1-1.
c) Graphique à barres / histogramme groupé
Ce type de représentation est utile lorsque l'on veut visualiser la répartition des données en deux catégories.
Cibler: Nous voulons analyser les vues totales des sujets dans le forum de discussion par catégorie et date de publication.
Code:
données discussion_date;
discuter;
mois = mois(Date postée);
nom_mois=PUT(Date postée,monnom.);
mettre nom_mois= @;
Cours;
proc sgplot data=discuss_date;
vbar category/ response=views group=month_name groupdisplay=cluster
datalabel datalabelattrs = (poids = gras) dataskin=brillant; grille de l'axe des y;
Cours;
Production:
Cependant, il y a un problème avec cette image, les mois ne sont pas dans l'ordre chronologique. Pour résoudre ce, nous utilisons PROC FORMAT.
Coder avec PROC FORMAT:
données discussion_date; discuter; mois = mois(Date postée); num_mois = entrée(mois,5.); Cours;
FORMAT PROC; VALEUR moisfmt 1 = 'Janvier' 2 = 'Février' 3 = 'Mars' 4 = 'Avril'; COURS;
proc sgplot data=discuss_date;
vbar category/ response=views group = month_num groupdisplay=cluster datalabel
datalabelattrs = (poids = gras) dataskin=gloss grouporder= ascendant;
format month_num monthfmt.;
grille de l'axe des y;
Cours;
Production:
ré) Graphique linéaire
UNE Graphique linéaire O graphique linéaire est un type de graphique qui affiche des informations sous la forme d'une série de points de données appelés “signets” reliés par des segments de droite. Un graphique linéaire est souvent utilisé pour visualiser les tendances des données sur des intervalles de temps., une série temporelle, donc la ligne est souvent tracée chronologiquement. Dans ces cas, ils sont appelés exécuter des graphiques.
Pour cette illustration, nous utiliserons les données de PGDBA de IIT + IIM C + ISI frente a Praxis Business School PGPBA.
Code:
données proc sgplot = clics; vline date/réponse = PGDBA_IIM_ ; vline date/réponse = PGPBA_Praxis_; étiquette de l'axe des y = "Clics"; Cours;
Production:
e) Graphique à barres
Ce graphique combiné combine les fonctionnalités du graphique à barres et du graphique en courbes. Affiche les données à l'aide d'une série de barres et / ou des lignes, dont chacun représente une catégorie particulière. Une combinaison de barres et de lignes dans la même visualisation peut être utile lors de la comparaison de valeurs dans différentes catégories.
Cibler: Nous voulons comparer les ventes projetées avec les ventes réelles pour différentes périodes.
Code:
proc sgplot data=barline; vbar month/ response=actual_sales datalabel datalabelattrs = (poids = gras) remplissage = (couleur = bronzage); vline mois/réponse=predicted_sales lineattrs =(épaisseur = 3) Marqueurs; étiquette xaxis= "Mois"; étiquette de l'axe des y = "Ventes"; légende clé / emplacement=à l'intérieur position=en haut à gauche à travers=1; Cours;
Noter: Les données doivent être ordonnées par la variable de l'axe des x.
Production:
2) Étudier la relation
une) Graphique à bulles
Un graphique à bulles est un type de graphique qui affiche trois dimensions de données. Chaque entité avec son triplet (v1, v2, v3) les données associées sont tracées sous la forme d'un disque exprimant deux des vje valeurs sur le disque xy emplacement et le troisième pour sa taille. – La source: Wikipédia.
Données pour le système d'exploitation:
Code:
données proc sgplot = os; bulle X=dépenses Y=taille des ventes=bénéfice /fillattrs=(couleur = sarcelle) étiquette de données = Emplacement; Cours;
Production:
Comme nous pouvons le voir, il existe un enregistrement pour lequel les ventes et les bénéfices sont les plus élevés tandis que les dépenses comparatives sont inférieures à certains autres points de données.
b) Nuage de points pour la relation
Un simple diagramme de dispersion entre deux variables peut nous donner une idée de la relation entre elles: direct, exponentiel, etc. Cette information peut être utile lors d'une analyse ultérieure.
Code:
données proc sgplot = os; titre « Relation du profit avec les ventes »; scatter X= ventes Y = profit/ marqueurattrs=(symbole=taille encerclée=15); Cours;
Production:
3. Étudier la répartition
une) Histogramme
UNE histogramme est une représentation graphique de la distribution des données numériques. C'est une estimation de la distribution de probabilité d'une variable continue. Pour construire un histogramme, la première étape est “Grouper” la plage de valeurs, c'est-à-dire, diviser toute la plage de valeurs en une série de petits intervalles, puis compter combien de valeurs tombent dans chaque intervalle. Les bacs sont généralement spécifiés comme des intervalles consécutifs, non chevauchement d'une variable. Les conteneurs (intervalles) doit être adjacent et, comme d'habitude, la même taille. Les rectangles d'un histogramme sont dessinés de manière à se toucher pour indiquer que la variable d'origine est continue.
Code:
données proc sgplot = sashelp.cars; histogramme msrp/fillattrs=(couleur = acier)échelle = proportion; densité msrp; Cours;
Production:
Nous avons utilisé l'ensemble de données sashelp.mtcars ici. Un histogramme de la variable MSRP nous donne le chiffre précédent. Cela nous indique que la variable MSRP est asymétrique vers la droite, indiquant que la plupart des points de données sont en dessous $ 50,000. Se pueden encontrar ideas significativas a partir de histogrammesLes histogrammes sont des représentations graphiques qui montrent la distribution d’un ensemble de données. Ils sont construits en divisant la plage de valeurs en intervalles, O "Bacs", et compter la quantité de données tombées dans chaque intervalle. Cette visualisation vous permet d’identifier des modèles, Tendances et variabilité des données, faciliter l’analyse statistique et la prise de décision éclairée dans diverses disciplines.....
b) Diagramme de dispersion
en un nuage de points les données sont affichées comme une collection de points, chacun avec la valeur d'une variable qui détermine la position sur l'axe horizontal et la valeur de l'autre variable qui détermine la position sur l'axe vertical. Il peut être utilisé à la fois pour voir la distribution des données. et accéder à la relation entre les variables.
Noter: pour illustration, nous utiliserons un ensemble de données 'pour discuter’ tiré de la Vidhya analytique Discuter
Code:
données proc sgplot = discuter; scatter X= dateposted Y = vues/groupe=catégorie marqueurattrs=(symbole=taille encerclée=15); Cours;
Production:
Les SGSCATTER La procédure peut également être utilisée pour les nuages de points. Il a l'avantage de pouvoir produire plusieurs diagrammes de dispersion. Ci-dessous se trouve la sortie utilisant sgcscatter:
Code:
proc sgscatter data = discuter; comparer y = vues x = (catégorie de réponses) /groupe = marqueur de moisattrs=(symbole = taille du cercle = 10); Cours;
Production:
Une utilisation importante du nuage de points est l'interprétation des résidus de la régression linéaire. Un nuage de points des résidus par rapport aux valeurs prédites de la variable prédite nous aide à déterminer si les données sont hétéroscédastiques ou homoscédastiques..
HÉTÉROSQUEDASTIQUE HOMOSQUEDASTIQUE
4) Composition
une) Graphique à colonnes empilées:
Sur un graphique à barres empilées, les barres empilées représentent différents groupes les uns sur les autres. La hauteur de la barre résultante montre le résultat combiné des groupes.
Par exemple, si nous voulons voir les ventes totales par article regroupées par emplacement dans les données totales de l'ensemble de données du système d'exploitation, nous pouvons utiliser le graphique à colonnes empilées. Ci-dessous l'illustration:
Code:
données proc sgplot = os; titre 'Ventes réelles par emplacement et article'; Article vbar / response=Sales group=Location stat=pourcentage datalabel; affichage de l'axe des x=(pas de label); étiquette de grille yaxis="Ventes"; Cours;
Production:
Remarques finales:
Les visualisations deviennent un moyen naturel de comprendre les données en masse. Ils véhiculent facilement des informations et facilitent l'échange d'idées avec les autres. Dans cet article, nous analysons quelques visualisations de base qui peuvent être réalisées via SAS base. Ceux-ci peuvent être un excellent moyen de résumer nos données, obtenir des informations, trouver des relations, etc.
Avez-vous trouvé cet article utile? Y a-t-il d'autres visualisations que vous avez utilisées que vous pouvez partager avec notre public? N'hésitez pas à les partager à travers les commentaires ci-dessous..