Cree visualizaciones de datos interactivas con Plotly

Contenidos

Introducción

En el mundo actual, cada segundo los datos son cada vez más grandes. Para comprender los datos rápidamente y obtener información, la visualización de datos se vuelve necesaria.

Por ejemplo, considere un caso en el que se le pide que ilustre aspectos de ventas cruciales (como rendimiento de ventas, objetivo, ingresos, costo de adquisición, etc.) a partir de grandes cantidades de datos de ventas, cuál preferiría:

  1. Explorar los datos utilizando Excel (u hojas de cálculo) y realizar un seguimiento de cada aspecto de las ventas manualmente.
  2. Explorar los datos utilizando diferentes tipos de gráficos y tablas de ventas.

Obviamente, preferiría gráficos y tablas. Por lo tanto, la visualización de datos juega un papel clave en la exploración y el análisis de datos.

Visualización de datos es la técnica para representar los datos / información en un formato pictórico o gráfico. Permite a las partes interesadas y a los responsables de la toma de decisiones analizar y explorar los datos visualmente y descubrir conocimientos profundos.

«La visualización te da respuestas a preguntas que no sabías que tenías». – Ben Schneiderman

Beneficios de la visualización de datos

  • Ayuda en el análisis de datos, exploración de datos y hace que los datos sean más comprensibles.
  • Resume la información cuantitativa compleja en un espacio reducido.
  • Ayuda a descubrir las últimas tendencias, patrones ocultos en los datos.
  • Identifica las relaciones / correlaciones entre las variables.
  • Ayuda a examinar las áreas que necesitan atención o mejora.

¿Por qué Plotly?

Hay varias bibliotecas disponibles en Python como Matplotlib, Seaborn, etc. para la visualización de datos. Pero solo representan las imágenes estáticas de los gráficos / gráficos y, debido a esto, muchas cosas cruciales se pierden en la visualización. ¿No sería asombroso si pudiéramos interactuar mejor con los gráficos colocando el cursor sobre (o) acercándonos? Plotly nos permite hacer lo mismo.

  • Plotly es una biblioteca de visualización de datos de código abierto para crear cuadros / gráficos interactivos y con calidad de publicación.
  • Plotly ofrece la implementación de muchos tipos de gráficos / objetos diferentes como diagrama de líneas, diagrama de dispersión, diagrama de área, histograma, diagrama de caja, diagrama de barras, etc.
  • Plotly admite el trazado interactivo en lenguajes de programación de uso común como Python, R, MATLAB, Javascript, etc.

En esta publicación, cubriremos los tipos de gráficos más utilizados usando Plotly. Así que comencemos a usar Coches93 conjunto de datos disponible en Kaggle.

El conjunto de datos contiene 27 parámetros de automóvil (como fabricante, marca, precio, caballos de fuerza, tamaño del motor, peso, cilindros, bolsas de aire, pasajeros, etc.) de 93 automóviles diferentes.

El conjunto de datos se ve así:

48818df_head-3681508

Nota adicional: Para acceder a todo el código de Python, siga el kernel de kaggle aquí(https://www.kaggle.com/vikashrajluhaniwal/interactive-visualizations-using-plotly).

Instalación de Plotly

Para instalar Plotly, use el siguiente comando en la terminal.

pip install plotly

Plotly viene con pocos módulos para crear visualizaciones, es decir, nos da la opción de utilizarlo.

  • Rápido: Una interfaz de alto nivel para crear visualizaciones rápidas. Es un envoltorio alrededor de Plotly Graph_objects módulo.
  • Graph_objects: Una interfaz de bajo nivel para figuras, trazos y diseños. Es altamente personalizable en general para diferentes gráficos / tablas.
  • figure_factory: Las fábricas de figuras son funciones dedicadas para crear tipos de gráficos muy específicos. Estaba disponible antes de la existencia de Plotly Rápido, por lo tanto, obsoleto como «heredado».

Habiendo conocido e instalado Plotly, ahora tracemos diferentes gráficos / tablas usándolo.

1. Diagrama de caja

  • Un diagrama de caja (o diagrama de caja y bigotes) es una forma estandarizada de mostrar la distribución de datos cuantitativos basada en un resumen de cinco puntos (mínimo, primer cuartil (Q1), mediana (Q2), tercer cuartil (Q3), y máximo).
  • La caja se extiende desde los valores del cuartil Q1 a Q3, mientras que los bigotes se extienden desde los bordes de la caja hasta el IQR de 1,5 *. IQR = (Q3 – Q1)

Ahora creemos un diagrama de caja para automóviles ‘ Precio característica.
box-plot-of-price-2477278
Lo mejor de esta visualización es que podemos comenzar a interactuar con ella moviéndonos para ver los valores de los cuantiles.

Del mismo modo, podemos personalizarlo según el requisito. Por ejemplo, dibujar un diagrama de caja de Precio para cada AirBags escribe.

box-plot-of-price-across-airbags-types-1590059

2. Histograma

  • Un histograma es una representación precisa de la distribución de datos numéricos.
  • Para construir un histograma, siga estos pasos:
    • Compartimiento (o depósito) el rango de valores: divida todo el rango de valores en una serie de intervalos.
    • Contar cuántos valores caen en cada intervalo.

Dibujemos un histograma para autos ‘ Caballo de fuerza característica.

histogram-of-horsepower-6600776

Aquí, el eje X se trata de rangos de bin de Caballo de fuerza mientras que el eje Y habla de frecuencia / recuento en cada contenedor.

3. Gráfico de densidad

  • La gráfica de densidad es una variación de un histograma, donde en lugar de representar la frecuencia en el eje Y, representa los valores de PDF (Función de densidad de probabilidad).
  • Es útil para determinar visualmente la asimetría de la variable.
  • Además, es útil para evaluar la importancia de una variable continua para un problema de clasificación.

La gráfica de densidad de Caballo de fuerza Residencia en AirBags tipo es como se muestra a continuación.

density-plot-4179624

4. Gráfico de barras

  • Un gráfico de barras representa datos categóricos con barras rectangulares con pesos proporcionales a los valores que representan.
  • Un gráfico de barras muestra comparaciones entre categorías discretas.

El gráfico de barras del Escribe característica es como se muestra a continuación.

barplot-of-type-3868219

Del mismo modo, podemos personalizarlo para mostrar MPG.city significa en el eje Y, en lugar de mostrar el recuento.barplot-of-type-2-mpg-city-mean-9948082

5. Gráfico circular

  • El gráfico circular se utiliza para representar la proporción numérica de los datos en un gráfico circular.
  • Toda el área del gráfico representa el 100% de los datos, la longitud del arco de cada corte representa el porcentaje relativo del todo.

El gráfico circular del Escribe función es como se muestra a continuación.

pie-chart-1816478

6. Gráfico de dispersión

  • Un diagrama de dispersión usa puntos para representar valores para dos variables numéricas diferentes.
  • Es realmente útil para observar la relación entre dos variables numéricas.

Dibujemos un diagrama de dispersión para evaluar la relación entre Caballo de fuerza y MPG.city.

scatter-plot-of-horsepower-vs-mpg-city_-9991322

A partir de esta gráfica, podemos observar que a medida que Caballo de fuerza aumenta, MPG en la ciudad disminuye.

Plotly también proporciona una forma de dibujar diagramas de dispersión 3D. Dibujemos lo mismo usando Caballo de fuerza, MPG.city, y Precio características.

3d-scatter-plot-2807458

De manera similar, podemos dibujar una matriz de gráficos de dispersión (una cuadrícula / matriz de gráficos de dispersión) para evaluar las relaciones por pares para cada combinación de variables.

scatter-plot-matrix-2311020

7. Gráfico de líneas

  • Un gráfico de líneas es un tipo de gráfico que muestra información como una serie de puntos de datos llamados ‘marcadores’ conectados por segmentos de línea recta.
  • Es similar a un diagrama de dispersión, excepto que los puntos de medición están ordenados (generalmente por su valor del eje x) y unidos con segmentos de línea recta.
  • Los gráficos de líneas se utilizan generalmente para encontrar relaciones entre dos variables numéricas o para visualizar una tendencia en datos de series de tiempo.

Dibujemos un diagrama de dispersión para evaluar la relación entre Caballo de fuerza y MPG.city.

line-chart-of-horsepower-vs-mpg-city_-3581886

8. Mapa de calor

  • Un mapa de calor es una representación gráfica bidimensional de datos, mientras que los valores de la matriz se representan en diferentes tonos de colores.
  • Un mapa de calor tiene como objetivo proporcionar un resumen visual codificado por colores de datos / información.
  • Seaborn también permite mapas de calor anotados.

Dibujemos un mapa de calor para representar la matriz de correlación de coches93 datos.

correlation-heatmap-7631883

9. Trama de violín

  • Los diagramas de violín son similares a los diagramas de caja, excepto que también muestran la densidad de probabilidad de los datos en diferentes valores. En otras palabras, el diagrama de violín es una combinación de diagrama de caja y diagrama de densidad.
  • Las secciones más amplias de la trama del violín indican una probabilidad más alta, mientras que las secciones estrechas indican una probabilidad más baja.

La trama de violín del Precio La función se muestra a continuación.

violin-plot-of-price-8180280

Del mismo modo, podemos personalizarlo usando Plotly para mostrar el cuadro y todos los puntos de datos.

violin-plot-of-price-with-box-and-all-points-7638628

10. Nube de palabras

  • Word Cloud es una técnica de visualización para representar la frecuencia de palabras dentro de un segmento de texto dado.
  • El tamaño de una palabra indica la frecuencia con la que aparece en el texto. Cuanto mayor sea el tamaño, mayor será la importancia (frecuencia), mientras que cuanto menor sea el tamaño, menor será la importancia (frecuencia).
  • Las nubes de palabras se utilizan a menudo para representar la frecuencia de palabras en documentos de texto, informes, datos de sitios web, discursos públicos, etc.

Nube de palabras de un elegido Documento de texto es como se muestra a continuación.

53286wordcloud-6360280

Notas finales

En este artículo, discutimos diferentes tipos de gráficos / gráficos usando Plotly en Python. Plotly es muy recomendable para crear visualizaciones interactivas.

Los medios que se muestran en este artículo no son propiedad de DataPeaker y se utilizan a discreción del autor.

Suscribite a nuestro Newsletter

No te enviaremos correo SPAM. Lo odiamos tanto como tú.