¡8 gráficos que debe conocer para sobresalir en el arte de la visualización de datos!

Contenidos

Introducción

Los seres humanos se encuentran entre las especies más creativas de este planeta. Desde tiempos inmemoriales, el arte ha tomado diversas formas, desde las pinturas rupestres paleolíticas hasta el arte moderno. Por ejemplo, las pinturas rupestres de Bhimbetka dieron mucha información sobre la vida de las personas en ese entonces. La génesis del arte visual se remonta a la edad de piedra.

Ahora, como parte de la cuarta generación de la revolución, que ha sido testigo del arte y la creatividad en diversos campos y formas, aquí vienen varias herramientas y lenguajes de programación a nuestro rescate para resolver problemas comerciales complejos utilizando el arte de la visualización.

Las empresas de hoy en día utilizan varias técnicas de visualización para comprender los datos y obtener información de ellos para tomar decisiones comerciales basadas en datos. Hoy en día hay muchas herramientas de visualización disponibles como Tableau, Power BI, Looker, Qlik sense y muchas más. En este tema, cubriremos varios tipos de gráficos usando Python.

La necesidad de la visualización de datos

Los datos tienen más sentido y son fáciles de entender cuando se presentan en un formato simple y visualizado, ya que es difícil para el ojo humano descifrar el patrón, la tendencia y la estacionalidad a partir de los datos sin procesar. Por lo tanto, los datos se visualizan para comprender cómo se comportan los diferentes parámetros.

Varios tipos de gráficos y sus usos.

77887types-8926814

1. Gráficos de barras y columnas

Es uno de los gráficos más simples para comprender cómo se está desempeñando nuestro campo cuantitativo en varias categorías. Se utiliza para comparación.

62660bar20chart-3112001

En el gráfico de columnas anterior, podemos ver que las ventas de tecnología son más altas y los suministros de oficina son los menores.

87230128ac916-d348-4938-9d90-2b0456ffedfd-image2005-1-01-4988350

El gráfico que se muestra arriba es un gráfico de barras que muestra que las categorías L funcionan mejor.

2. Gráfico de dispersión y gráfico de burbujas

Los diagramas de dispersión y de burbujas nos ayudan a comprender cómo se propagar en todo el rango considerado. Se puede utilizar para identificar los patrones, la presencia de valores atípicos y la relación entre las dos variables.

37256scatter20pot-2678654

Podemos ver que con el aumento de los descuentos las ganancias están disminuyendo.

12315screen-shot-2015-02-04-at-4-41-48-pm201-6749829

El gráfico que se muestra arriba es un gráfico de burbujas.

3. Gráfico de líneas

Se prefiere cuando se deben presentar datos dependientes del tiempo. Es más adecuado para analizar el tendencia.

74740download202-9889025

En el gráfico anterior, podemos ver que las ventas están aumentando a lo largo de los meses, pero hay una caída repentina en el mes de julio y las ventas son más altas en noviembre.

4. Histograma

Un histograma es un gráfico de frecuencia que registra el número de ocurrencias de una entrada en un conjunto de datos. Es útil cuando desea comprender el distribución de una serie.

93299download203-8822264

5. Diagrama de caja

Los diagramas de caja son eficaces para resumir propagar de grandes datos. Usan percentil para dividir el rango de datos. Esto nos ayuda a comprender el punto de datos que se encuentra por debajo o por encima de un punto de datos elegido. Nos ayuda a identificar valores atípicos en los datos.

32022bx-1958681

El diagrama de caja divide los datos completos en tres categorías

* Valor mediano: divide los datos en dos mitades iguales

* IQR: oscila entre los valores de los percentiles 25 y 75.

* Valores atípicos: estos datos difieren significativamente y se encuentran fuera de los bigotes.

71836download204-2769081

Los círculos del gráfico anterior muestran la presencia de valores atípicos.

6. Subparcelas

A veces es mejor trazar diferentes parcelas en la misma cuadrícula para entender y comparar los datos mejor.

75883download206-1079091

Aquí puede ver que en el gráfico único pudimos comprender las ventas durante un período de tiempo en diferentes regiones.

7. Donut, gráficos circulares y gráficos de columnas apiladas

Cuando queremos encontrar el composición de los gráficos de datos mencionados anteriormente es el mejor.

93779tableau_donut_chart-1579621

El gráfico de anillos anterior muestra la composición de ventas de diferentes categorías de productos.

82710072120_1431_7secretsoft7-1244548

El gráfico circular anterior muestra el porcentaje de ventas en diferentes años.

68789stackedbar2-5668916

El gráfico de columnas de arriba muestra la venta de dos productos en diferentes trimestres.

8. Mapas de calor

Es el gráfico más preferido cuando queremos comprobar si hay alguno. correlación entre variables.

37847download207-4874757

Aquí el valor positivo muestra una correlación positiva y el valor negativo muestra una correlación negativa. El color indica la intensidad de la correlación, cuanto más oscuro es el color, mayor es la correlación positiva y cuanto más claro es el color, mayor es la correlación negativa.

Comprender la visualización con Python

Python ofrece varias bibliotecas para comprender los datos gráficamente como Matplotlib y Seaborn etc. Comencemos nuestro viaje hacia el mundo de la visualización.

Anubhav es una empresa basada en productos que vende diferentes tipos de productos. Exploremos los datos para encontrar sus ventas durante un período, qué categoría / subcategoría de producto genera las mayores ventas, la relación de la ganancia con un aumento en el descuento.

1. Primero importemos las bibliotecas relevantes.

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

advertencias de importación

warnings.filterwarnings (‘ignorar’)


2. El siguiente paso sería cargar el conjunto de datos.

sales=pd.read_excel('Maven Supplies Raw.xlsx',skiprows=3)
sales.head(2)
48566data-7806500

3. Teniendo el conjunto de datos con nosotros, exploremos los datos

# Check the number of rows and columns in the dataframe
sales.shape
(9994, 24)
# Check the column-wise info of the dataframe
sales.info()
16089info-4654611
# Check the summary for the numeric columns 
sales.describe()
90434desc-2566653
sales.columns
50314columns-5837594

4. Ahora que comprendemos mejor los datos disponibles, visualicémoslos para comprenderlos mejor.

– Primero, explore la composición de categorías con% de ventas.

sales.groupby(['Category'])['Sales'].sum().plot(kind='pie',autopct="%1.2f%%")
plt.title("Sales% of different category")
plt.ylabel(" ")
plt.show();
13886download208-6824856

Podemos ver que la tecnología está funcionando mejor en comparación con otras categorías.

– Hay una gran cantidad de subcategorías dentro de los datos, permite ver cómo se desempeñan las diferentes subcategorías.

plt.figure(figsize=(10,3))
sales.groupby(['Sub-Category'])['Sales'].sum().sort_values(ascending=False).plot(kind='bar',color="seagreen")
plt.show();
32177download209-2254155

Podemos ver que las ventas de teléfonos son las más altas, seguidas de sillas y así sucesivamente.

– Las ventas en diferentes regiones serán diferentes. Vamos a ver

sales.groupby(['Region'])['Sales'].sum().sort_values(ascending=False).plot(kind='bar',color="seagreen")
plt.show();
88153download2014-8868949

Las ventas en la región oeste son altas y la región sur es la menor.

– Ahora veamos cómo se desempeñan las regiones en términos de ganancias.

sales.groupby(['Region'])['Profit'].sum().sort_values(ascending=False).plot(kind='bar',color="seagreen")
plt.show();
49877download2015-7939149

La región sur que tuvo el peor desempeño en términos de ventas se está desempeñando mejor en comparación con la región central.

– Los mapas de calor nos brindan una mejor comprensión de cómo se correlacionan las diferentes variables entre sí.

plt.figure(figsize = (10, 5))
sns.heatmap(sales.corr(),annot=True,cmap="summer")
plt.show()
13747download2010-3799728

Es evidente que los descuentos tienen una correlación negativa con las ganancias.

– Descifremos cómo se ve afectado el beneficio por un aumento de los descuentos.

sns.scatterplot(x = 'Discount', y='Profit', data = sales ,color="seagreen")
plt.show;
88975download2011-3807705

Podemos ver que con el aumento del descuento las ganancias también están disminuyendo.

– Las ventas no son constantes, aumentan o disminuyen en función de varios factores. Veamos cómo se están desempeñando las ventas en los diferentes meses.

sales.groupby(['month'])['Sales'].sum().plot(kind='line',color="seagreen")
53397download2013-8369825

Como se mencionó anteriormente, está mostrando un patrón con las mayores ventas en el mes de noviembre y las menores ventas en el mes de febrero.

– No es necesario que incluso si las ventas son altas, las ganancias mostrarán un patrón similar. Veamos cómo cambian las ganancias a lo largo del tiempo. Esto puede deberse a la venta de productos con descuentos como se ve en el diagrama de dispersión.

sales.groupby(['month'])['Profit'].sum().plot(kind='line',color="seagreen")
44823profit-5239337

podemos ver que los beneficios son altos durante el mes de septiembre y más bajos durante el mes de julio.

– Las ventas pueden mostrar un patrón creciente o decreciente con el año.

sales.groupby(['year'])['Sales'].sum().plot(kind='line',color="seagreen")
plt.xticks([2015,2016,2017,2018])
plt.show()
91907download2016-8680470

Podemos ver que las ventas muestran una tendencia a la baja en el año 2016 mientras crece en todos los años.

A partir de un conjunto de datos, pudimos comprender que los teléfonos generaban la mayor parte de las ventas y que la región oeste contribuía con las mayores ventas y ganancias. Durante un período de tiempo, las ventas aumentaron, pero con el aumento del descuento, las ganancias mostraron una tendencia a la baja. Vimos que hubo meses particulares en los que se registraron mayores ventas y ganancias.

Por lo tanto, podemos decir que la visualización habla mucho, siempre tendrá alguna historia que contar que ayude a las empresas a tomar decisiones basadas en datos.

Conclusión

En este artículo, hablamos sobre varios tipos de gráficos y sus usos. Nos ocupamos de un conjunto de datos para comprender cómo usar las bibliotecas de Python para visualizar los datos y darles sentido. Por lo tanto, podemos decir que a través de la visualización, es fácil descifrar un patrón oculto o una tendencia en los datos. Con algunos ejemplos, vimos que los gráficos ayudan en la comparación y, lo más importante, son fáciles de entender.

Notas finales

¡¡¡Gracias por leer!!!

Espero que haya disfrutado leyendo el artículo y haya aumentado sus conocimientos sobre varios tipos de gráficos y su uso.

Si no he mencionado nada o si desea compartir sus pensamientos, no dude en comentar a continuación en la sección de comentarios.

Sobre el Autor

Sruthi ER

Soy un entusiasta de la ciencia de datos con interés en el análisis y la visualización de datos, y actualmente estoy cursando la certificación de posgrado en ciencia de datos de IIIT-Bangalore. Vengo de una carrera de Ingeniería Civil con 4 años de experiencia en la industria de la construcción.

No dudes en contactarme en Linkedin

Los medios que se muestran en este artículo no son propiedad de DataPeaker y se utilizan a discreción del autor.

Suscribite a nuestro Newsletter

No te enviaremos correo SPAM. Lo odiamos tanto como tú.