Créez des visualisations de données interactives avec Plotly

Contenu

introduction

Dans le monde réel, chaque seconde, les données s'agrandissent. Pour comprendre rapidement les données et obtenir des informations, la visualisation des données devient nécessaire.

Par exemple, Prenons un cas où l'on vous demande d'illustrer des aspects commerciaux cruciaux (que la performance des ventes, objectif, le revenu, coût d'acquisition, etc.) à partir de grandes quantités de données de vente, lequel préféreriez-vous:

  1. Explorer les données à l'aide d'Excel (ou des feuilles de calcul) et suivez chaque aspect des ventes manuellement.
  2. Explorer les données à l'aide de différents types de graphiques et de tableaux de ventes.

Évidemment, Je préférerais des graphiques et des tableaux. Donc, la visualisation des données joue un rôle clé dans l'exploration et l'analyse des données.

Visualisation de données est la technique pour représenter les données / informations sous forme d'images ou de graphiques. Permet aux parties prenantes et aux décideurs d'analyser et d'explorer visuellement les données et de découvrir des informations approfondies.

“La visualisation vous donne des réponses à des questions que vous ne saviez pas que vous aviez”. – Ben Schneiderman

Avantages de la visualisation des données

  • Aide à l'analyse des données, l'exploration des données et rend les données plus compréhensibles.
  • Résumer des informations quantitatives complexes dans un espace confiné.
  • Aidez-nous à découvrir les dernières tendances, modèles cachés dans les données.
  • Identifier les relations / corrélations entre les variables.
  • Aide à examiner les domaines qui nécessitent une attention ou une amélioration.

Pourquoi comploter?

Il existe plusieurs bibliothèques disponibles en Python comme Matplotlib, Seaborn, etc. pour la visualisation des données. Mais ils ne représentent que les images statiques des graphiques / graphiques et, à cause de, beaucoup de choses cruciales se perdent dans la visualisation. Ne serait-ce pas incroyable si nous pouvions mieux interagir avec les graphiques en survolant (O) se rapprocher? comploter nous permet de faire de même.

  • Plotly est une bibliothèque de visualisation de données open source pour la création de graphiques / graphiques interactifs de qualité publication.
  • Plotly propose la mise en œuvre de nombreux types de graphiques / différents objets comme le diagramme de ligne, Diagramme de dispersion, diagramme de zone, histogramme, boîte à moustaches, diagramme à bandes, etc.
  • Plotly prend en charge le traçage interactif dans les langages de programmation couramment utilisés tels que Python, R, MATLAB, Javascript, etc.

Dans ce billet, nous couvrirons les types de graphiques les plus couramment utilisés en utilisant comploter. Alors commençons à utiliser Voitures93 base de données disponible en Kaggle.

L'ensemble de données contient 27 paramètres de voiture (en tant que fabricant, marque, le prix, chevaux de force, taille du moteur, poids, cylindres, coussins gonflables, passagers, etc.) de 93 différentes voitures.

L'ensemble de données ressemble à ceci:

48818df_head-3681508

Note supplémentaire: Pour accéder à tout le code Python, suivre le noyau de kaggle ici(https://www.kaggle.com/vikashrajluhaniwal/interactive-visualizations-using-plotly).

Installation de la parcelle

Pour installer comploter, utilisez la commande suivante dans le terminal.

pip installer plotly

Plotly est livré avec quelques modules pour créer des visualisations, c'est-à-dire, nous donne la possibilité de l'utiliser.

  • Rapide: Une interface de haut niveau pour créer des visualisations rapides. C'est un enveloppement autour de Plotly Graph_objects module.
  • Graph_objects: Une interface bas niveau pour les chiffres, traits et dessins. Il est hautement personnalisable en général pour différents graphiques / planches.
  • figure_usine: Les fabriques de formes sont des fonctions dédiées à la création de types de graphiques très spécifiques. Il était disponible avant l'existence de Plotly Rapide, donc, obsolète comme “hérité”.

Ayant connu et installé comploter, dessinons maintenant différents graphiques / tableaux l'utilisant.

1. Box plot

  • Une boîte à moustaches (ou intrigue en boîte et moustache) est un moyen standardisé d'afficher la distribution des données quantitatives sur la base d'un résumé en cinq points (le minimum, premier quartile (T1), médian (T2), troisième quartile (T3), et maxi).
  • La case s'étend des valeurs du quartile Q1 à Q3, tandis que les moustaches s'étendent des bords de la boîte à l'IQR de 1,5 *. IQR = (T3 – T1)

Créons maintenant une boîte à moustaches pour les voitures ‘ Prix caractéristique.
box-plot-of-price-2477278
La meilleure chose à propos de cette visualisation est que nous pouvons commencer à interagir avec elle en nous déplaçant pour voir les valeurs des quantiles.

De la même manière, nous pouvons le personnaliser selon l'exigence. Par exemple, tracer une boîte à moustaches de Prix pour chaque Airbags écrit.

box-plot-of-price-across-airbags-types-1590059

2. Histogramme

  • Un histogramme est une représentation précise de la distribution des données numériques.
  • Pour construire un histogramme, Suivez ces étapes:
    • Compartiment (le dépôt) la plage de valeurs: diviser toute la plage de valeurs en une série d'intervalles.
    • Raconter combien de valeurs tombent dans chaque intervalle.

Dessinons un histogramme pour les voitures ‘ Puissance caractéristique.

histogramme-de-chevaux-6600776

Ici, l'axe des x concerne les plages de bin de Puissance tandis que l'axe Y parle de fréquence / compter dans chaque conteneur.

3. Graphique de densité

  • Le graphique de densité est une variation d'un histogramme, où au lieu de représenter la fréquence sur l'axe Y, représente les valeurs PDF (Fonction de densité de probabilité).
  • Il est utile de déterminer visuellement l'asymétrie de la variable.
  • En outre, utile pour évaluer l'importance d'une variable continue pour un problème de classification.

Le tracé de densité de Puissance basé sur Airbags le type est comme indiqué ci-dessous.

densité-plot-4179624

4. Graphique à barres

  • Un graphique à barres représente des données catégorielles avec des barres rectangulaires avec des poids proportionnels aux valeurs qu'elles représentent.
  • Un graphique à barres montre des comparaisons entre des catégories discrètes.

Le graphique à barres du Écrit la caractéristique est comme ci-dessous montrer.

barplot-de-type-3868219

De la même manière, nous pouvons le personnaliser pour montrer MPG.ville signifie sur l'axe Y, au lieu d'afficher le compte.barplot-of-type-2-mpg-city-mean-9948082

5. Diagramme circulaire

  • Le camembert est utilisé pour représenter la proportion numérique des données dans un camembert.
  • Toute la zone du graphique représente le 100% des données, la longueur de l'arc de chaque coupe représente le pourcentage relatif de l'ensemble.

Le camembert de Écrit la fonction est comme indiqué ci-dessous.

camembert-1816478

??

6. Nuage de points

  • Un nuage de points utilise des points pour représenter les valeurs de deux variables numériques différentes.
  • Il est vraiment utile d'observer la relation entre deux variables numériques.

Dessinons un nuage de points pour évaluer la relation entre Puissance Oui MPG.ville.

nuage de points-de-puissance-vs-mpg-city_-9991322

De ce graphique, nous pouvons observer que comme Puissance augmente, MPG en ville diminue.

Plotly fournit également un moyen de dessiner des nuages ​​de points en 3D. Dessinons la même chose en utilisant Puissance, MPG.ville, Oui Prix fonctionnalités.

3d-scatter-plot-2807458

de la même manière, nous pouvons dessiner une matrice de nuages ​​de points (une grille / matrice de nuage de points) pour évaluer les relations par paires pour chaque combinaison de variables.

scatter-plot-matrice-2311020

7. Graphique linéaire

  • Un graphique en courbes est un type de graphique qui affiche des informations sous la forme d'une série de points de données appelés « marqueurs ».’ reliés par des segments de droite.
  • C'est similaire à un nuage de points, sauf que les points de mesure sont ordonnés (généralement par sa valeur sur l'axe des x) et jointe avec des segments de ligne droite.
  • Les graphiques linéaires sont généralement utilisés pour trouver des relations entre deux variables numériques ou pour visualiser une tendance dans les données de séries chronologiques..

Dessinons un nuage de points pour évaluer la relation entre Puissance Oui MPG.ville.

line-chart-of-horsepower-vs-mpg-city_-3581886

8. Carte de chaleur

  • Une carte thermique est une représentation graphique bidimensionnelle de données, tandis que les valeurs de la matrice sont représentées dans différentes nuances de couleurs.
  • Une carte thermique est destinée à fournir un résumé visuel codé par couleur des données / information.
  • Seaborn permet également des cartes thermiques annotées.

Dessinons une carte thermique pour représenter la matrice de corrélation de voitures93 Les données.

corrélation-heatmap-7631883

9. Cadre de violon

  • Les tracés de violon sont similaires aux tracés en boîte, sauf qu'ils montrent également la densité de probabilité des données à différentes valeurs. En d'autres termes, le diagramme de violon est une combinaison de boîte à moustaches et de diagramme de densité.
  • Des sections plus larges du tracé du violon indiquent une probabilité plus élevée, tandis que les sections étroites indiquent une probabilité plus faible.

L'intrigue du violon de la Prix La fonction est montrée ci-dessous.

lot-de-prix-violon-8180280

De la même manière, nous pouvons le personnaliser en utilisant comploter pour afficher le tableau et tous les points de données.

violon-intrigue-de-prix-avec-boite-et-tout-points-7638628

10. Mot nuage

  • Word Cloud est une technique de visualisation pour représenter la fréquence des mots dans un segment de texte donné.
  • La taille d'un mot indique à quelle fréquence il apparaît dans le texte. Plus la taille est grande, plus l'importance (la fréquence), tandis que plus la taille est petite, moins sera l'importance (la fréquence).
  • Les nuages ​​de mots sont souvent utilisés pour représenter la fréquence des mots dans les documents texte., rapports, données du site Web, discours publics, etc.

Nuage de mot d'un élu document texte c'est comme indiqué ci-dessous.

53286nuage de mots-6360280

Remarques finales

Dans cet article, nous discutons de différents types de graphiques / graphiques utilisant comploter et Python. comploter fortement recommandé pour créer des visualisations interactives.

Les médias présentés dans cet article ne sont pas la propriété de DataPeaker et sont utilisés à la discrétion de l'auteur.

Abonnez-vous à notre newsletter

Nous ne vous enverrons pas de courrier SPAM. Nous le détestons autant que vous.