Introducción
Los seres humanos se encuentran entre las especies más creativas de este planeta. Desde tiempos inmemoriales, el arte ha tomado diversas formas, desde las pinturas rupestres paleolíticas hasta el arte moderno. Por ejemplo, las pinturas rupestres de Bhimbetka dieron mucha información sobre la vida de las personas en ese entonces. La génesis del arte visual se remonta a la edad de piedra.
Ahora, como parte de la cuarta generación de la revolución, que ha sido testigo del arte y la creatividad en diversos campos y formas, aquí vienen varias herramientas y lenguajes de programación a nuestro rescate para resolver problemas comerciales complejos utilizando el arte de la visualización.
Las empresas de hoy en día utilizan varias técnicas de visualización para comprender los datos y obtener información de ellos para tomar decisiones comerciales basadas en datos. Hoy en día hay muchas herramientas de visualización disponibles como Tableau, Power BI, Looker, Qlik sense y muchas más. En este tema, cubriremos varios tipos de gráficos usando Python.
La necesidad de la visualización de datos
Los datos tienen más sentido y son fáciles de entender cuando se presentan en un formato simple y visualizado, ya que es difícil para el ojo humano descifrar el patrón, la tendencia y la estacionalidad a partir de los datos sin procesar. Por lo tanto, los datos se visualizan para comprender cómo se comportan los diferentes parámetrosLos "parámetros" son variables o criterios que se utilizan para definir, medir o evaluar un fenómeno o sistema. En diversos campos como la estadística, la informática y la investigación científica, los parámetros son fundamentales para establecer normas y estándares que guían el análisis y la interpretación de datos. Su adecuada selección y manejo son cruciales para obtener resultados precisos y relevantes en cualquier estudio o proyecto.....
Varios tipos de gráficos y sus usos.
1. Gráficos de barras y columnas
Es uno de los gráficos más simples para comprender cómo se está desempeñando nuestro campo cuantitativo en varias categorías. Se utiliza para comparación.
En el gráfico de columnas anterior, podemos ver que las ventas de tecnología son más altas y los suministros de oficina son los menores.
El gráfico que se muestra arriba es un gráfico de barrasEl gráfico de barras es una representación visual de datos que utiliza barras rectangulares para mostrar comparaciones entre diferentes categorías. Cada barra representa un valor y su longitud es proporcional a este. Este tipo de gráfico es útil para visualizar y analizar tendencias, facilitando la interpretación de información cuantitativa. Es ampliamente utilizado en diversas disciplinas, como la estadística, el marketing y la investigación, debido a su simplicidad y efectividad.... que muestra que las categorías L funcionan mejor.
2. Gráfico de dispersiónUn gráfico de dispersión es una representación visual que muestra la relación entre dos variables numéricas mediante puntos en un plano cartesiano. Cada eje representa una variable, y la ubicación de cada punto indica su valor en relación con ambas. Este tipo de gráfico es útil para identificar patrones, correlaciones y tendencias en los datos, facilitando el análisis y la interpretación de relaciones cuantitativas.... y gráfico de burbujas
Los diagramas de dispersión y de burbujas nos ayudan a comprender cómo se propagar en todo el rango considerado. Se puede utilizar para identificar los patrones, la presencia de valores atípicos y la relación entre las dos variables.
Podemos ver que con el aumento de los descuentos las ganancias están disminuyendo.
El gráfico que se muestra arriba es un gráfico de burbujas.
3. Gráfico de líneasEl gráfico de líneas es una herramienta visual utilizada para representar datos a lo largo del tiempo. Consiste en una serie de puntos conectados por líneas, lo que permite observar tendencias, fluctuaciones y patrones en los datos. Este tipo de gráfico es especialmente útil en áreas como la economía, la meteorología y la investigación científica, facilitando la comparación de diferentes conjuntos de datos y la identificación de comportamientos a lo...
Se prefiere cuando se deben presentar datos dependientes del tiempo. Es más adecuado para analizar el tendencia.
En el gráfico anterior, podemos ver que las ventas están aumentando a lo largo de los meses, pero hay una caída repentina en el mes de julio y las ventas son más altas en noviembre.
4. Histograma
Un histograma es un gráfico de frecuencia que registra el número de ocurrencias de una entrada en un conjunto de datos. Es útil cuando desea comprender el distribución de una serie.
5. Diagrama de caja
Los diagramas de cajaLos diagramas de caja, también conocidos como diagramas de caja y bigotes, son herramientas estadísticas que representan la distribución de un conjunto de datos. Estos diagramas muestran la mediana, los cuartiles y los valores atípicos, lo que permite visualizar la variabilidad y la simetría de los datos. Son útiles en la comparación entre diferentes grupos y en el análisis exploratorio, facilitando la identificación de tendencias y patrones en los datos.... son eficaces para resumir propagar de grandes datos. Usan percentil para dividir el rango de datos. Esto nos ayuda a comprender el punto de datos que se encuentra por debajo o por encima de un punto de datos elegido. Nos ayuda a identificar valores atípicos en los datos.
El diagrama de caja divide los datos completos en tres categorías
* Valor mediano: divide los datos en dos mitades iguales
* IQR: oscila entre los valores de los percentiles 25 y 75.
* Valores atípicos: estos datos difieren significativamente y se encuentran fuera de los bigotes.
Los círculos del gráfico anterior muestran la presencia de valores atípicos.
6. Subparcelas
A veces es mejor trazar diferentes parcelas en la misma cuadrícula para entender y comparar los datos mejor.
Aquí puede ver que en el gráfico único pudimos comprender las ventas durante un período de tiempo en diferentes regiones.
7. Donut, gráficos circulares y gráficos de columnas apiladas
Cuando queremos encontrar el composición de los gráficos de datos mencionados anteriormente es el mejor.
El gráfico de anillos anterior muestra la composición de ventas de diferentes categorías de productos.
El gráfico circularEl gráfico circular, también conocido como diagrama de sectores, es una representación visual que muestra la proporción de diferentes partes respecto a un todo. Se utiliza comúnmente en estadísticas para ilustrar la distribución de datos categóricos. Cada sección del gráfico representa un porcentaje del total, facilitando la comparación entre categorías. Su diseño claro y conciso lo convierte en una herramienta efectiva para la presentación de información cuantitativa.... anterior muestra el porcentaje de ventas en diferentes años.
El gráfico de columnas de arriba muestra la venta de dos productos en diferentes trimestres.
8. Mapas de calor
Es el gráfico más preferido cuando queremos comprobar si hay alguno. correlación entre variables.
Aquí el valor positivo muestra una correlación positiva y el valor negativo muestra una correlación negativa. El color indica la intensidad de la correlación, cuanto más oscuro es el color, mayor es la correlación positiva y cuanto más claro es el color, mayor es la correlación negativa.
Comprender la visualización con Python
Python ofrece varias bibliotecas para comprender los datos gráficamente como Matplotlib y Seaborn etc. Comencemos nuestro viaje hacia el mundo de la visualización.
Anubhav es una empresa basada en productos que vende diferentes tipos de productos. Exploremos los datos para encontrar sus ventas durante un período, qué categoría / subcategoría de producto genera las mayores ventas, la relación de la ganancia con un aumento en el descuento.
1. Primero importemos las bibliotecas relevantes.
import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns
advertencias de importación
warnings.filterwarnings (‘ignorar’)
2. El siguiente paso sería cargar el conjunto de datos.
sales=pd.read_excel('Maven Supplies Raw.xlsx',skiprows=3) sales.head(2)
3. Teniendo el conjunto de datos con nosotros, exploremos los datos
# Check the number of rows and columns in the dataframe sales.shape
(9994, 24)
# Check the column-wise info of the dataframe sales.info()
# Check the summary for the numeric columns sales.describe()
sales.columns
4. Ahora que comprendemos mejor los datos disponibles, visualicémoslos para comprenderlos mejor.
– Primero, explore la composición de categorías con% de ventas.
sales.groupby(['Category'])['Sales'].sum().plot(kind='pie',autopct="%1.2f%%") plt.title("Sales% of different category") plt.ylabel(" ") plt.show();
Podemos ver que la tecnología está funcionando mejor en comparación con otras categorías.
– Hay una gran cantidad de subcategorías dentro de los datos, permite ver cómo se desempeñan las diferentes subcategorías.
plt.figure(figsize=(10,3)) sales.groupby(['Sub-Category'])['Sales'].sum().sort_values(ascending=False).plot(kind='bar',color="seagreen") plt.show();
Podemos ver que las ventas de teléfonos son las más altas, seguidas de sillas y así sucesivamente.
– Las ventas en diferentes regiones serán diferentes. Vamos a ver
sales.groupby(['Region'])['Sales'].sum().sort_values(ascending=False).plot(kind='bar',color="seagreen") plt.show();
Las ventas en la región oeste son altas y la región sur es la menor.
– Ahora veamos cómo se desempeñan las regiones en términos de ganancias.
sales.groupby(['Region'])['Profit'].sum().sort_values(ascending=False).plot(kind='bar',color="seagreen") plt.show();
La región sur que tuvo el peor desempeño en términos de ventas se está desempeñando mejor en comparación con la región central.
– Los mapas de calor nos brindan una mejor comprensión de cómo se correlacionan las diferentes variables entre sí.
plt.figure(figsize = (10, 5)) sns.heatmap(sales.corr(),annot=True,cmap="summer") plt.show()
Es evidente que los descuentos tienen una correlación negativa con las ganancias.
– Descifremos cómo se ve afectado el beneficio por un aumento de los descuentos.
sns.scatterplot(x = 'Discount', y='Profit', data = sales ,color="seagreen") plt.show;
Podemos ver que con el aumento del descuento las ganancias también están disminuyendo.
– Las ventas no son constantes, aumentan o disminuyen en función de varios factores. Veamos cómo se están desempeñando las ventas en los diferentes meses.
sales.groupby(['month'])['Sales'].sum().plot(kind='line',color="seagreen")
Como se mencionó anteriormente, está mostrando un patrón con las mayores ventas en el mes de noviembre y las menores ventas en el mes de febrero.
– No es necesario que incluso si las ventas son altas, las ganancias mostrarán un patrón similar. Veamos cómo cambian las ganancias a lo largo del tiempo. Esto puede deberse a la venta de productos con descuentos como se ve en el diagrama de dispersiónEl diagrama de dispersión es una herramienta gráfica utilizada en estadística para visualizar la relación entre dos variables. Consiste en un conjunto de puntos en un plano cartesiano, donde cada punto representa un par de valores correspondientes a las variables analizadas. Este tipo de gráfico permite identificar patrones, tendencias y posibles correlaciones, facilitando la interpretación de datos y la toma de decisiones basadas en la información visual presentada.....
sales.groupby(['month'])['Profit'].sum().plot(kind='line',color="seagreen")
podemos ver que los beneficios son altos durante el mes de septiembre y más bajos durante el mes de julio.
– Las ventas pueden mostrar un patrón creciente o decreciente con el año.
sales.groupby(['year'])['Sales'].sum().plot(kind='line',color="seagreen") plt.xticks([2015,2016,2017,2018]) plt.show()
Podemos ver que las ventas muestran una tendencia a la baja en el año 2016 mientras crece en todos los años.
A partir de un conjunto de datos, pudimos comprender que los teléfonos generaban la mayor parte de las ventas y que la región oeste contribuía con las mayores ventas y ganancias. Durante un período de tiempo, las ventas aumentaron, pero con el aumento del descuento, las ganancias mostraron una tendencia a la baja. Vimos que hubo meses particulares en los que se registraron mayores ventas y ganancias.
Por lo tanto, podemos decir que la visualización habla mucho, siempre tendrá alguna historia que contar que ayude a las empresas a tomar decisiones basadas en datos.
Conclusión
En este artículo, hablamos sobre varios tipos de gráficos y sus usos. Nos ocupamos de un conjunto de datos para comprender cómo usar las bibliotecas de Python para visualizar los datos y darles sentido. Por lo tanto, podemos decir que a través de la visualización, es fácil descifrar un patrón oculto o una tendencia en los datos. Con algunos ejemplos, vimos que los gráficos ayudan en la comparación y, lo más importante, son fáciles de entender.
Notas finales
¡¡¡Gracias por leer!!!
Espero que haya disfrutado leyendo el artículo y haya aumentado sus conocimientos sobre varios tipos de gráficos y su uso.
Si no he mencionado nada o si desea compartir sus pensamientos, no dude en comentar a continuación en la sección de comentarios.
Sobre el Autor
Sruthi ER
Soy un entusiasta de la ciencia de datos con interés en el análisis y la visualización de datos, y actualmente estoy cursando la certificación de posgrado en ciencia de datos de IIIT-Bangalore. Vengo de una carrera de Ingeniería Civil con 4 años de experiencia en la industria de la construcción.
No dudes en contactarme en Linkedin
Los medios que se muestran en este artículo no son propiedad de DataPeaker y se utilizan a discreción del autor.