Introdução
¡Una imagen vale mas que mil palabras!
En el entorno competitivo actual, las empresas quieren un proceso de toma de decisiones más rápido, lo que garantiza que se mantengan a la cabeza en la carrera.
La visualización de datos ayuda en dos etapas críticas en el proceso de decisión basado en datos (como se muestra en la siguiente figura"Figura" é um termo usado em vários contextos, Da arte à anatomia. No campo artístico, refere-se à representação de formas humanas ou animais em esculturas e pinturas. Em anatomia, designa a forma e a estrutura do corpo. O que mais, em matemática, "figura" está relacionado a formas geométricas. Sua versatilidade o torna um conceito fundamental em várias disciplinas....):
Neste artigo, exploraremos las 4 aplicaciones de visualización de datos y su implementación en SAS. Para um melhor entendimento, hemos tomado conjuntos de datos de muestra para crear esta visualización. A seguir, se muestran los aspectos principales de la visualización de datos:
- Haciendo comparación: Inclui gráfico de barrasO gráfico de barras é uma representação visual de dados que usa barras retangulares para mostrar comparações entre diferentes categorias. Cada barra representa um valor e seu comprimento é proporcional a ele. Esse tipo de gráfico é útil para visualizar e analisar tendências, facilitar a interpretação de informações quantitativas. É amplamente utilizado em várias disciplinas, como estatísticas, Marketing e pesquisa, devido à sua simplicidade e eficácia...., gráfico de linhaEl gráfico de líneas es una herramienta visual utilizada para representar datos a lo largo del tiempo. Consiste en una serie de puntos conectados por líneas, lo que permite observar tendencias, fluctuaciones y patrones en los datos. Este tipo de gráfico es especialmente útil en áreas como la economía, la meteorología y la investigación científica, facilitando la comparación de diferentes conjuntos de datos y la identificación de comportamientos a lo..., gráfico de líneas de barras, gráfico de columnas, gráfico de columnas de barras agrupadas.
- Relación de estudio: Incluye gráfico de burbujas, gráfico de dispersãoUm gráfico de dispersão é uma representação visual que mostra a relação entre duas variáveis numéricas usando pontos em um plano cartesiano. Cada eixo representa uma variável, e a localização de cada ponto indica seu valor em relação a ambos. Esse tipo de gráfico é útil para identificar padrões, Correlações e tendências nos dados, facilitando a análise e interpretação de relações quantitativas....
- Estudiando Distribución: Incluye histograma, Diagrama de dispersãoO gráfico de dispersão é uma ferramenta gráfica usada em estatística para visualizar a relação entre duas variáveis. Consiste em um conjunto de pontos em um plano cartesiano, onde cada ponto representa um par de valores correspondentes às variáveis analisadas. Este tipo de gráfico permite identificar padrões, Tendências e possíveis correlações, facilitando a interpretação dos dados e a tomada de decisão com base nas informações visuais apresentadas....,
- Comprender la composición: Incluye gráfico de columnas apiladas
Comecemos!
Para fines de la ilustración, usaremos un conjunto de datos ‘discutir’ tomado de la Discutir Vidhya Analítico. Los datos contienen el tema de discusión, a categoria, el número de respuestas a la publicación y el número total de Vistas. Los datos contienen los 20 temas principales:
1. Haciendo una comparación
uma) Gráfico de barras
UMA gráfico de barras, também conhecido como gráfico de barras representa datos agrupados utilizando barras rectangulares con longitudes proporcionales a los valores que representan. Las barras se pueden trazar vertical u horizontalmente. Un gráfico de barras verticales a veces se denomina gráfico de barras de columnas.
Ilustración
objetivo: Queremos saber el número de vistas de cada categoría representadas gráficamente a través de un gráfico de barras.
Código:
proc sgplot data = discuss; hbar category/response = views stat = sum datalabel datalabelattrs=(weight=bold); title 'Total Views by Category'; run;
Produção:
B) Gráfico de columnas
Los gráficos de columnas a menudo se explican por sí mismos. Son simplemente la versión vertical de un gráfico de barras donde la longitud de las barras es igual a la magnitud del valor que representan. Aquí hay una maniobra: gire el gráfico que se muestra arriba en -90 graus, se convertirá en un gráfico de columnas.
Código:
proc sgplot data = discuss; hbar category/response = views stat = sum datalabel datalabelattrs=(weight=bold) barwidth = 0.5; /* Assign width to bars*/ title 'Total Views by Category'; run;
Produção:
-> Explicación del código para el gráfico de barras y el gráfico de columnas:
- Categoria: a variávelEm estatística e matemática, uma "variável" é um símbolo que representa um valor que pode mudar ou variar. Existem diferentes tipos de variáveis, e qualitativo, que descrevem características não numéricas, e quantitativo, representando quantidades numéricas. Variáveis são fundamentais em experimentos e estudos, uma vez que permitem a análise de relações e padrões entre diferentes elementos, facilitando a compreensão de fenômenos complexos.... según la cual se deben agrupar los datos.
- Respuesta = vistas: las estadísticas especificadas por la opción stat = se calculan para las vistas variables agrupadas por variable de categoría.
- La opción Datalabel especifica que queremos que los valores calculados se muestren para cada barra.
- La opción Weight = bold especifica que las etiquetas de datos de cada barra se mostrarán en negrita.
- La opción de ancho de barra se utiliza para asignar ancho a las barras. El valor predeterminado es 0.8 y el rango es 0.1-1.
c) Gráfico de barras / gráfico de columnas agrupadas
Este tipo de representación es útil cuando queremos visualizar la distribución de datos en dos categorías.
objetivo: Queremos analizar las visualizaciones totales de los temas en el foro de discusión por categoría y fecha de publicación.
Código:
data discuss_date; set discuss; month = month(DatePosted); month_name=PUT(DatePosted,monname.); put month_name= @; run; proc sgplot data=discuss_date; vbar category/ response=views group=month_name groupdisplay=cluster datalabel datalabelattrs = (weight = bold) dataskin=gloss; yaxis grid; run;
Produção:
Porém, hay un problema con esta imagen, los meses no están en orden cronológico. Para resolver isso, utilizamos PROC FORMAT.
Código con FORMATO PROC:
data discuss_date; set discuss; month = month(DatePosted); month_num = input(mês,5.); run;
PROC FORMAT; VALUE monthfmt 1 = 'January' 2 = 'February' 3 = 'March' 4 = 'April'; RUN;
proc sgplot data=discuss_date; vbar category/ response=views group = month_num groupdisplay=cluster datalabel datalabelattrs = (weight = bold) dataskin=gloss grouporder= ascending; format month_num monthfmt.; yaxis grid; run;
Produção:
D) Gráfico de linha
UMA Gráfico de linha o gráfico de linha es un tipo de gráfico que muestra información como una serie de puntos de datos llamados “marcadores” conectado por segmentos de linha reta. Un gráfico de líneas se usa a menudo para visualizar tendencias en los datos a lo largo de intervalos de tiempo, una serie de tiempo, por lo que la línea a menudo se dibuja cronológicamente. En estos casos se les conoce como ejecutar gráficos.
Para esta ilustración, usaremos datos de PGDBA de IIT + IIM C + ISI frente a Praxis Business School PGPBA.
Código:
proc sgplot data = clicks; vline date/response = PGDBA_IIM_ ; vline date/response = PGPBA_Praxis_; yaxis label = "Clicks"; run;
Produção:
e) Gráfico de líneas de barras
Este gráfico de combinación combina las características del gráfico de barras y el gráfico de líneas. Muestra los datos mediante una serie de barras y / o líneas, cada una de las cuales representa una categoría en particular. Una combinación de barras y líneas en la misma visualización puede resultar útil al comparar valores en diferentes categorías.
objetivo: Queremos comparar las ventas proyectadas con las ventas reales para diferentes períodos de tiempo.
Código:
proc sgplot data=barline; vbar month/ response=actual_sales datalabel datalabelattrs = (weight = bold) fillattrs= (color = tan); vline month/ response=predicted_sales lineattrs =(thickness = 3) markers; xaxis label= "Mês"; yaxis label = "Vendas"; keylegend / location=inside position=topleft across=1; run;
Observação: Los datos deben ordenarse por la variable del eje x.
Produção:
2) Estudiar la relación
uma) Gráfico de bolhas
Un gráfico de burbujas es un tipo de gráfico que muestra tres dimensiones de datos. Cada entidad con su triplete (v1, v2, v3) de datos asociados se traza como un disco que expresa dos de los veu valores a través del disco xy ubicación y la tercera por su tamaño. – Fonte: Wikipedia.
Datos para SO:
Código:
proc sgplot data = os; bubble X=expenses Y=sales size= profit /fillattrs=(color = teal) datalabel = Location; run;
Produção:
Como podemos ver, hay un registro para el cual las Ventas y las Ganancias son máximas mientras que los gastos comparativos son menores que algunos otros puntos de datos.
b) Diagrama de dispersión para la relación
Un diagrama de dispersión simple entre dos variables puede darnos una idea sobre la relación entre ellas: linear, exponencial, etc. Esta información puede ser útil durante un análisis posterior.
Código:
proc sgplot data = os; title 'Relationship of Profit with Sales'; scatter X= sales Y = profit/ markerattrs=(symbol=circlefilled size=15); run;
Produção:
3. Estudiar la distribución
uma) Histograma
UMA histograma es una representación gráfica de la distribución de datos numéricos. Es una estimación de la distribución de probabilidad de una variable continua. Para construir um histograma, el primer paso es “agrupar” a gama de valores, quer dizer, dividir el rango completo de valores en una serie de intervalos pequeños y luego contar cómo muchos valores caen en cada intervalo. Los bins generalmente se especifican como intervalos consecutivos, no superpuestos de una variable. Los contenedores (intervalos) deben ser adyacentes y, em geral, del mismo tamaño. Los rectángulos de un histograma se dibujan de modo que se toquen entre sí para indicar que la variable original es continua.
Código:
proc sgplot data = sashelp.cars; histogram msrp/fillattrs=(color = steel)scale = proportion; density msrp; run;
Produção:
Hemos utilizado el conjunto de datos sashelp.mtcars aquí. Un histograma de la variable MSRP nos da la figura anterior. Esto nos dice que la variable MSRP está sesgada hacia la derecha, lo que indica que la mayoría de los puntos de datos están por debajo de $ 50,000. Se pueden encontrar ideas significativas a partir de histogramasHistogramas são representações gráficas que mostram a distribuição de um conjunto de dados. Eles são construídos dividindo o intervalo de valores em intervalos, o "Caixas", e contando quantos dados caem em cada intervalo. Essa visualização permite identificar padrões, tendências e variabilidade de dados de forma eficaz, facilitando a análise estatística e a tomada de decisões informadas em várias disciplinas.....
b) Diagrama de dispersão
em um gráfico de dispersão los datos se muestran como una colección de puntos, cada uno con el valor de una variable que determina la posición en el eje horizontal y el valor de la otra variable que determina la posición en el eje vertical. Se puede usar tanto para ver la distribución de datos. y acceder a la relación entre variables.
Observação: para la ilustración, usaremos un conjunto de datos ‘discutir’ tomado de la Discutir Vidhya Analítico
Código:
proc sgplot data = discuss; scatter X= dateposted Y = views/group=category markerattrs=(symbol=circlefilled size=15); run;
Produção:
a SGSCATTER El procedimiento también se puede utilizar para diagramas de dispersión. Tiene la ventaja de poder producir múltiples diagramas de dispersión. A continuación se muestra la salida usando sgcscatter:
Código:
proc sgscatter data = discuss; compare y = views x = (replies category) /group = month markerattrs=(symbol = circlefilled size = 10); run;
Produção:
Un uso importante del diagrama de dispersión es la interpretación de los residuos de la regresión lineal. Un diagrama de dispersión de los residuos frente a los valores pronosticados de la variable pronosticada nos ayuda a determinar si los datos son heterocedásticos u homocedásticos.
HETEROSQUEDÁSTICO HOMOSQUEDÁSTICO
4) Composición
uma) Gráfico de columnas apiladas:
En un gráfico de barras apiladas, las barras apiladas representan diferentes grupos uno encima del otro. La altura de la barra resultante muestra el resultado combinado de los grupos.
Por exemplo, si queremos ver las ventas totales por artículo agrupadas por ubicación en los datos totales del conjunto de datos del sistema operativo, podemos usar el gráfico de columnas apiladas. A continuación se muestra la ilustración:
Código:
proc sgplot data=os; title 'Actual Sales by Location and Item'; vbar Item / response=Sales group=Location stat=percent datalabel; xaxis display=(nolabel); yaxis grid label="Vendas"; run;
Produção:
Notas finais:
Las visualizaciones se convierten en una forma natural de comprender los datos en grandes cantidades. Transmiten información de manera sencilla y facilitan el intercambio de ideas con otros. Neste artigo, analizamos algunas visualizaciones básicas que se pueden realizar a través de SAS base. Estos pueden ser una excelente manera de resumir nuestros datos, obtener información, encontrar relaciones, etc.
Você achou este artigo útil? ¿Hay alguna otra visualización que haya utilizado que pueda compartir con nuestra audiencia? No dude en compartirlos a través de los comentarios a continuación.