Introducción
En el mundo actual, cada segundo los datos son cada vez más grandes. Para comprender los datos rápidamente y obtener información, la visualización de datos se vuelve necesaria.
Por ejemplo, considere un caso en el que se le pide que ilustre aspectos de ventas cruciales (como rendimiento de ventas, objetivo, ingresos, costo de adquisición, etc.) a partir de grandes cantidades de datos de ventas, cuál preferiría:
- Explorar los datos utilizando Excel (u hojas de cálculo) y realizar un seguimiento de cada aspecto de las ventas manualmente.
- Explorar los datos utilizando diferentes tipos de gráficos y tablas de ventas.
Obviamente, preferiría gráficos y tablas. Por lo tanto, la visualización de datos juega un papel clave en la exploración y el análisis de datos.
Visualización de datos es la técnica para representar los datos / información en un formato pictórico o gráfico. Permite a las partes interesadas y a los responsables de la toma de decisiones analizar y explorar los datos visualmente y descubrir conocimientos profundos.
«La visualización te da respuestas a preguntas que no sabías que tenías». – Ben Schneiderman
Beneficios de la visualización de datos
- Ayuda en el análisis de datos, exploración de datos y hace que los datos sean más comprensibles.
- Resume la información cuantitativa compleja en un espacio reducido.
- Ayuda a descubrir las últimas tendencias, patrones ocultos en los datos.
- Identifica las relaciones / correlaciones entre las variables.
- Ayuda a examinar las áreas que necesitan atención o mejora.
¿Por qué Plotly?
Hay varias bibliotecas disponibles en Python como Matplotlib, Seaborn, etc. para la visualización de datos. Pero solo representan las imágenes estáticas de los gráficos / gráficos y, debido a esto, muchas cosas cruciales se pierden en la visualización. ¿No sería asombroso si pudiéramos interactuar mejor con los gráficos colocando el cursor sobre (o) acercándonos? Plotly nos permite hacer lo mismo.
- Plotly es una biblioteca de visualización de datos de código abierto para crear cuadros / gráficos interactivos y con calidad de publicación.
- Plotly ofrece la implementación de muchos tipos de gráficos / objetos diferentes como diagrama de líneas, diagrama de dispersiónEl diagrama de dispersión es una herramienta gráfica utilizada en estadística para visualizar la relación entre dos variables. Consiste en un conjunto de puntos en un plano cartesiano, donde cada punto representa un par de valores correspondientes a las variables analizadas. Este tipo de gráfico permite identificar patrones, tendencias y posibles correlaciones, facilitando la interpretación de datos y la toma de decisiones basadas en la información visual presentada...., diagrama de área, histograma, diagrama de caja, diagrama de barras, etc.
- Plotly admite el trazado interactivo en lenguajes de programación de uso común como Python, R, MATLAB, Javascript, etc.
En esta publicación, cubriremos los tipos de gráficos más utilizados usando Plotly. Así que comencemos a usar Coches93 conjunto de datos disponible en Kaggle.
El conjunto de datos contiene 27 parámetrosLos "parámetros" son variables o criterios que se utilizan para definir, medir o evaluar un fenómeno o sistema. En diversos campos como la estadística, la informática y la investigación científica, los parámetros son fundamentales para establecer normas y estándares que guían el análisis y la interpretación de datos. Su adecuada selección y manejo son cruciales para obtener resultados precisos y relevantes en cualquier estudio o proyecto.... de automóvil (como fabricante, marca, precio, caballos de fuerza, tamaño del motor, peso, cilindros, bolsas de aire, pasajeros, etc.) de 93 automóviles diferentes.
El conjunto de datos se ve así:
Nota adicional: Para acceder a todo el código de Python, siga el kernel de kaggle aquí(https://www.kaggle.com/vikashrajluhaniwal/interactive-visualizations-using-plotly).
Instalación de Plotly
Para instalar Plotly, use el siguiente comando en la terminal.
pip install plotly
Plotly viene con pocos módulos para crear visualizaciones, es decir, nos da la opción de utilizarlo.
- Rápido: Una interfaz de alto nivel para crear visualizaciones rápidas. Es un envoltorio alrededor de Plotly Graph_objects módulo.
- Graph_objects: Una interfaz de bajo nivel para figuras, trazos y diseños. Es altamente personalizable en general para diferentes gráficos / tablas.
- figure_factory: Las fábricas de figuras son funciones dedicadas para crear tipos de gráficos muy específicos. Estaba disponible antes de la existencia de Plotly Rápido, por lo tanto, obsoleto como «heredado».
Habiendo conocido e instalado Plotly, ahora tracemos diferentes gráficos / tablas usándolo.
1. Diagrama de caja
- Un diagrama de caja (o diagrama de caja y bigotes) es una forma estandarizada de mostrar la distribución de datos cuantitativos basada en un resumen de cinco puntos (mínimo, primer cuartil (Q1), mediana (Q2), tercer cuartil (Q3), y máximo).
- La caja se extiende desde los valores del cuartil Q1 a Q3, mientras que los bigotes se extienden desde los bordes de la caja hasta el IQR de 1,5 *. IQR = (Q3 – Q1)
Ahora creemos un diagrama de caja para automóviles ‘ Precio característica.
Lo mejor de esta visualización es que podemos comenzar a interactuar con ella moviéndonos para ver los valores de los cuantiles.
Del mismo modo, podemos personalizarlo según el requisito. Por ejemplo, dibujar un diagrama de caja de Precio para cada AirBags escribe.
2. Histograma
- Un histograma es una representación precisa de la distribución de datos numéricos.
- Para construir un histograma, siga estos pasos:
- Compartimiento (o depósito) el rango de valores: divida todo el rango de valores en una serie de intervalos.
- Contar cuántos valores caen en cada intervalo.
Dibujemos un histograma para autos ‘ Caballo de fuerza característica.
Aquí, el eje X se trata de rangos de bin de Caballo de fuerza mientras que el eje Y habla de frecuencia / recuento en cada contenedor.
3. Gráfico de densidad
- La gráfica de densidad es una variación de un histograma, donde en lugar de representar la frecuencia en el eje Y, representa los valores de PDF (Función de densidad de probabilidad).
- Es útil para determinar visualmente la asimetría de la variableEn estadística y matemáticas, una "variable" es un símbolo que representa un valor que puede cambiar o variar. Existen diferentes tipos de variables, como las cualitativas, que describen características no numéricas, y las cuantitativas, que representan cantidades numéricas. Las variables son fundamentales en experimentos y estudios, ya que permiten analizar relaciones y patrones entre diferentes elementos, facilitando la comprensión de fenómenos complejos.....
- Además, es útil para evaluar la importancia de una variable continua para un problema de clasificación.
La gráfica de densidad de Caballo de fuerza Residencia en AirBags tipo es como se muestra a continuación.
4. Gráfico de barrasEl gráfico de barras es una representación visual de datos que utiliza barras rectangulares para mostrar comparaciones entre diferentes categorías. Cada barra representa un valor y su longitud es proporcional a este. Este tipo de gráfico es útil para visualizar y analizar tendencias, facilitando la interpretación de información cuantitativa. Es ampliamente utilizado en diversas disciplinas, como la estadística, el marketing y la investigación, debido a su simplicidad y efectividad....
- Un gráfico de barras representa datos categóricos con barras rectangulares con pesos proporcionales a los valores que representan.
- Un gráfico de barras muestra comparaciones entre categorías discretas.
El gráfico de barras del Escribe característica es como se muestra a continuación.
Del mismo modo, podemos personalizarlo para mostrar MPG.city significa en el eje Y, en lugar de mostrar el recuento.
5. Gráfico circularEl gráfico circular, también conocido como diagrama de sectores, es una representación visual que muestra la proporción de diferentes partes respecto a un todo. Se utiliza comúnmente en estadísticas para ilustrar la distribución de datos categóricos. Cada sección del gráfico representa un porcentaje del total, facilitando la comparación entre categorías. Su diseño claro y conciso lo convierte en una herramienta efectiva para la presentación de información cuantitativa....
- El gráfico circular se utiliza para representar la proporción numérica de los datos en un gráfico circular.
- Toda el área del gráfico representa el 100% de los datos, la longitud del arco de cada corte representa el porcentaje relativo del todo.
El gráfico circular del Escribe función es como se muestra a continuación.

6. Gráfico de dispersiónUn gráfico de dispersión es una representación visual que muestra la relación entre dos variables numéricas mediante puntos en un plano cartesiano. Cada eje representa una variable, y la ubicación de cada punto indica su valor en relación con ambas. Este tipo de gráfico es útil para identificar patrones, correlaciones y tendencias en los datos, facilitando el análisis y la interpretación de relaciones cuantitativas....
- Un diagrama de dispersión usa puntos para representar valores para dos variables numéricas diferentes.
- Es realmente útil para observar la relación entre dos variables numéricas.
Dibujemos un diagrama de dispersión para evaluar la relación entre Caballo de fuerza y MPG.city.
A partir de esta gráfica, podemos observar que a medidaLa "medida" es un concepto fundamental en diversas disciplinas, que se refiere al proceso de cuantificar características o magnitudes de objetos, fenómenos o situaciones. En matemáticas, se utiliza para determinar longitudes, áreas y volúmenes, mientras que en ciencias sociales puede referirse a la evaluación de variables cualitativas y cuantitativas. La precisión en la medición es crucial para obtener resultados confiables y válidos en cualquier investigación o aplicación práctica.... que Caballo de fuerza aumenta, MPG en la ciudad disminuye.
Plotly también proporciona una forma de dibujar diagramas de dispersión 3D. Dibujemos lo mismo usando Caballo de fuerza, MPG.city, y Precio características.
De manera similar, podemos dibujar una matriz de gráficos de dispersión (una cuadrícula / matriz de gráficos de dispersión) para evaluar las relaciones por pares para cada combinación de variables.
7. Gráfico de líneasEl gráfico de líneas es una herramienta visual utilizada para representar datos a lo largo del tiempo. Consiste en una serie de puntos conectados por líneas, lo que permite observar tendencias, fluctuaciones y patrones en los datos. Este tipo de gráfico es especialmente útil en áreas como la economía, la meteorología y la investigación científica, facilitando la comparación de diferentes conjuntos de datos y la identificación de comportamientos a lo...
- Un gráfico de líneas es un tipo de gráfico que muestra información como una serie de puntos de datos llamados ‘marcadores’ conectados por segmentos de línea recta.
- Es similar a un diagrama de dispersión, excepto que los puntos de medición están ordenados (generalmente por su valor del eje x) y unidos con segmentos de línea recta.
- Los gráficos de líneas se utilizan generalmente para encontrar relaciones entre dos variables numéricas o para visualizar una tendencia en datos de series de tiempo.
Dibujemos un diagrama de dispersión para evaluar la relación entre Caballo de fuerza y MPG.city.
8. Mapa de calorUn "mapa de calor" es una representación gráfica que utiliza colores para mostrar la densidad de datos en un área específica. Comúnmente utilizado en análisis de datos, marketing y estudios de comportamiento, este tipo de visualización permite identificar patrones y tendencias rápidamente. A través de variaciones cromáticas, los mapas de calor facilitan la interpretación de grandes volúmenes de información, ayudando a la toma de decisiones informadas....
- Un mapa de calor es una representación gráfica bidimensional de datos, mientras que los valores de la matriz se representan en diferentes tonos de colores.
- Un mapa de calor tiene como objetivo proporcionar un resumen visual codificado por colores de datos / información.
- Seaborn también permite mapas de calor anotados.
Dibujemos un mapa de calor para representar la matriz de correlación de coches93 datos.
9. Trama de violín
- Los diagramas de violín son similares a los diagramas de cajaLos diagramas de caja, también conocidos como diagramas de caja y bigotes, son herramientas estadísticas que representan la distribución de un conjunto de datos. Estos diagramas muestran la mediana, los cuartiles y los valores atípicos, lo que permite visualizar la variabilidad y la simetría de los datos. Son útiles en la comparación entre diferentes grupos y en el análisis exploratorio, facilitando la identificación de tendencias y patrones en los datos...., excepto que también muestran la densidad de probabilidad de los datos en diferentes valores. En otras palabras, el diagrama de violínEl diagrama de violín es una representación gráfica que combina características de un boxplot y un gráfico de densidad. Se utiliza para visualizar la distribución de un conjunto de datos, mostrando tanto la mediana como la variabilidad a través de su forma, que se asemeja a un violín. Este tipo de gráfico es muy útil en análisis estadísticos, ya que permite comparar múltiples distribuciones de forma clara y efectiva.... es una combinación de diagrama de caja y diagrama de densidad.
- Las secciones más amplias de la trama del violín indican una probabilidad más alta, mientras que las secciones estrechas indican una probabilidad más baja.
La trama de violín del Precio La función se muestra a continuación.
Del mismo modo, podemos personalizarlo usando Plotly para mostrar el cuadro y todos los puntos de datos.
10. Nube de palabras
- Word Cloud es una técnica de visualización para representar la frecuencia de palabras dentro de un segmento de texto dado.
- El tamaño de una palabra indica la frecuencia con la que aparece en el texto. Cuanto mayor sea el tamaño, mayor será la importancia (frecuencia), mientras que cuanto menor sea el tamaño, menor será la importancia (frecuencia).
- Las nubes de palabras se utilizan a menudo para representar la frecuencia de palabras en documentos de texto, informes, datos de sitios web, discursos públicos, etc.
Nube de palabras de un elegido Documento de texto es como se muestra a continuación.
Notas finales
En este artículo, discutimos diferentes tipos de gráficos / gráficos usando Plotly en Python. Plotly es muy recomendable para crear visualizaciones interactivas.
Los medios que se muestran en este artículo no son propiedad de DataPeaker y se utilizan a discreción del autor.