introduction
Dans le monde réel, chaque seconde, les données s'agrandissent. Pour comprendre rapidement les données et obtenir des informations, la visualisation des données devient nécessaire.
Par exemple, Prenons un cas où l'on vous demande d'illustrer des aspects commerciaux cruciaux (que la performance des ventes, objectif, le revenu, coût d'acquisition, etc.) à partir de grandes quantités de données de vente, lequel préféreriez-vous:
- Explorer les données à l'aide d'Excel (ou des feuilles de calcul) et suivez chaque aspect des ventes manuellement.
- Explorer les données à l'aide de différents types de graphiques et de tableaux de ventes.
Évidemment, Je préférerais des graphiques et des tableaux. Donc, la visualisation des données joue un rôle clé dans l'exploration et l'analyse des données.
Visualisation de données est la technique pour représenter les données / informations sous forme d'images ou de graphiques. Permet aux parties prenantes et aux décideurs d'analyser et d'explorer visuellement les données et de découvrir des informations approfondies.
« La visualisation vous donne des réponses à des questions que vous ne saviez pas que vous aviez ». – Ben Schneiderman
Avantages de la visualisation des données
- Aide à l'analyse des données, l'exploration des données et rend les données plus compréhensibles.
- Résumer des informations quantitatives complexes dans un espace confiné.
- Aidez-nous à découvrir les dernières tendances, modèles cachés dans les données.
- Identifier les relations / corrélations entre les variables.
- Aide à examiner les domaines qui nécessitent une attention ou une amélioration.
Pourquoi comploter?
Il existe plusieurs bibliothèques disponibles en Python comme Matplotlib, Seaborn, etc. pour la visualisation des données. Mais ils ne représentent que les images statiques des graphiques / graphiques et, à cause de, beaucoup de choses cruciales se perdent dans la visualisation. Ne serait-ce pas incroyable si nous pouvions mieux interagir avec les graphiques en survolant (O) se rapprocher? comploter nous permet de faire de même.
- Plotly est une bibliothèque de visualisation de données open source pour la création de graphiques / graphiques interactifs de qualité publication.
- Plotly propose la mise en œuvre de nombreux types de graphiques / différents objets comme le diagramme de ligne, Diagramme de dispersionLe nuage de points est un outil graphique utilisé en statistiques pour visualiser la relation entre deux variables. Il se compose d’un ensemble de points dans un plan cartésien, où chaque point représente une paire de valeurs correspondant aux variables analysées. Ce type de graphique vous permet d’identifier des modèles, Tendances et corrélations possibles, faciliter l’interprétation des données et la prise de décision sur la base des informations visuelles présentées...., diagramme de zone, histogramme, boîte à moustaches, diagramme à bandes, etc.
- Plotly prend en charge le traçage interactif dans les langages de programmation couramment utilisés tels que Python, R, MATLAB, Javascript, etc.
Dans ce billet, nous couvrirons les types de graphiques les plus couramment utilisés en utilisant comploter. Alors commençons à utiliser Voitures93 base de données disponible en Kaggle.
L'ensemble de données contient 27 paramètresLes "paramètres" sont des variables ou des critères qui sont utilisés pour définir, mesurer ou évaluer un phénomène ou un système. Dans divers domaines tels que les statistiques, Informatique et recherche scientifique, Les paramètres sont essentiels à l’établissement de normes et de standards qui guident l’analyse et l’interprétation des données. Leur sélection et leur manipulation correctes sont cruciales pour obtenir des résultats précis et pertinents dans toute étude ou projet.... Voiture (en tant que fabricant, marque, le prix, chevaux de force, taille du moteur, poids, cylindres, coussins gonflables, passagers, etc.) de 93 différentes voitures.
L'ensemble de données ressemble à ceci:
Note supplémentaire: Pour accéder à tout le code Python, suivre le noyau de kaggle ici(https://www.kaggle.com/vikashrajluhaniwal/interactive-visualizations-using-plotly).
Installation de la parcelle
Pour installer comploter, utilisez la commande suivante dans le terminal.
pip installer plotly
Plotly est livré avec quelques modules pour créer des visualisations, c'est-à-dire, nous donne la possibilité de l'utiliser.
- Rapide: Une interface de haut niveau pour créer des visualisations rapides. C'est un enveloppement autour de Plotly Graph_objects module.
- Graph_objects: Une interface bas niveau pour les chiffres, traits et dessins. Il est hautement personnalisable en général pour différents graphiques / planches.
- figure_usine: Les fabriques de formes sont des fonctions dédiées à la création de types de graphiques très spécifiques. Il était disponible avant l'existence de Plotly Rapide, donc, obsolète comme « hérité ».
Ayant connu et installé comploter, dessinons maintenant différents graphiques / tableaux l'utilisant.
1. Box plot
- Une boîte à moustaches (ou intrigue en boîte et moustache) est un moyen standardisé d'afficher la distribution des données quantitatives sur la base d'un résumé en cinq points (le minimum, premier quartile (T1), médian (T2), troisième quartile (T3), et maxi).
- La case s'étend des valeurs du quartile Q1 à Q3, tandis que les moustaches s'étendent des bords de la boîte à l'IQR de 1,5 *. IQR = (T3 – T1)
Créons maintenant une boîte à moustaches pour les voitures ‘ Prix caractéristique.
La meilleure chose à propos de cette visualisation est que nous pouvons commencer à interagir avec elle en nous déplaçant pour voir les valeurs des quantiles.
De la même manière, nous pouvons le personnaliser selon l'exigence. Par exemple, tracer une boîte à moustaches de Prix pour chaque Airbags écrit.
2. Histogramme
- Un histogramme est une représentation précise de la distribution des données numériques.
- Pour construire un histogramme, Suivez ces étapes:
- Compartiment (le dépôt) la plage de valeurs: diviser toute la plage de valeurs en une série d'intervalles.
- Raconter combien de valeurs tombent dans chaque intervalle.
Dessinons un histogramme pour les voitures ‘ Puissance caractéristique.
Ici, l'axe des x concerne les plages de bin de Puissance tandis que l'axe Y parle de fréquence / compter dans chaque conteneur.
3. Graphique de densité
- Le graphique de densité est une variation d'un histogramme, où au lieu de représenter la fréquence sur l'axe Y, représente les valeurs PDF (Fonction de densité de probabilité).
- Il est utile pour déterminer visuellement l’asymétrie de la variableEn statistique et en mathématiques, ongle "variable" est un symbole qui représente une valeur qui peut changer ou varier. Il existe différents types de variables, et qualitatif, qui décrivent des caractéristiques non numériques, et quantitatif, représentation de grandeurs numériques. Les variables sont fondamentales dans les expériences et les études, puisqu’ils permettent l’analyse des relations et des modèles entre différents éléments, faciliter la compréhension de phénomènes complexes.....
- En outre, utile pour évaluer l'importance d'une variable continue pour un problème de classification.
Le tracé de densité de Puissance basé sur Airbags le type est comme indiqué ci-dessous.
4. Graphique à barresLe graphique à barres est une représentation visuelle des données qui utilise des barres rectangulaires pour montrer des comparaisons entre différentes catégories. Chaque barre représente une valeur et sa longueur est proportionnelle à celle-ci. Ce type de graphique est utile pour visualiser et analyser les tendances, faciliter l’interprétation des informations quantitatives. Il est largement utilisé dans diverses disciplines, tels que les statistiques, Marketing et recherche, En raison de sa simplicité et de son efficacité....
- Un graphique à barres représente des données catégorielles avec des barres rectangulaires avec des poids proportionnels aux valeurs qu'elles représentent.
- Un graphique à barres montre des comparaisons entre des catégories discrètes.
Le graphique à barres du Écrit la caractéristique est comme ci-dessous montrer.
De la même manière, nous pouvons le personnaliser pour montrer MPG.ville signifie sur l'axe Y, au lieu d'afficher le compte.
5. Diagramme circulaireLe graphique circulaire, Aussi connu sous le nom de graphique circulaire, est une représentation visuelle qui montre la proportion de différentes parties par rapport à un tout. Il est couramment utilisé en statistique pour illustrer la distribution de données catégorielles. Chaque section du graphique représente un pourcentage du total, faciliter la comparaison entre les catégories. Sa conception claire et concise en fait un outil efficace pour la présentation d’informations quantitatives....
- Le camembert est utilisé pour représenter la proportion numérique des données dans un camembert.
- Toute la zone du graphique représente le 100% des données, la longueur de l'arc de chaque coupe représente le pourcentage relatif de l'ensemble.
Le camembert de Écrit la fonction est comme indiqué ci-dessous.
??
6. Nuage de pointsUn nuage de points est une représentation visuelle qui montre la relation entre deux variables numériques à l’aide de points sur un plan cartésien. Chaque axe représente une variable, et l’emplacement de chaque point indique sa valeur par rapport aux deux. Ce type de graphique est utile pour identifier des modèles, Corrélations et tendances dans les données, faciliter l’analyse et l’interprétation des relations quantitatives....
- Un nuage de points utilise des points pour représenter les valeurs de deux variables numériques différentes.
- Il est vraiment utile d'observer la relation entre deux variables numériques.
Dessinons un nuage de points pour évaluer la relation entre Puissance Oui MPG.ville.
De ce graphique, Nous pouvons voir que mesureLa "mesure" C’est un concept fondamental dans diverses disciplines, qui fait référence au processus de quantification des caractéristiques ou des grandeurs d’objets, phénomènes ou situations. En mathématiques, Utilisé pour déterminer les longueurs, Surfaces et volumes, tandis qu’en sciences sociales, il peut faire référence à l’évaluation de variables qualitatives et quantitatives. La précision des mesures est cruciale pour obtenir des résultats fiables et valides dans toute recherche ou application pratique.... Quoi Puissance augmente, MPG en ville diminue.
Plotly fournit également un moyen de dessiner des nuages de points en 3D. Dessinons la même chose en utilisant Puissance, MPG.ville, Oui Prix fonctionnalités.
de la même manière, nous pouvons dessiner une matrice de nuages de points (une grille / matrice de nuage de points) pour évaluer les relations par paires pour chaque combinaison de variables.
7. Graphique linéaireLe graphique linéaire est un outil visuel utilisé pour représenter les données au fil du temps. Il se compose d’une série de points reliés par des droites, qui vous permet d’observer les tendances, Fluctuations et modèles dans les données. Ce type de graphique est particulièrement utile dans des domaines tels que l’économie, Météorologie et recherche scientifique, ce qui facilite la comparaison de différents ensembles de données et l’identification des comportements à tous les niveaux..
- Un gráfico de líneas es un tipo de gráfico que muestra información como una serie de puntos de datos llamados ‘signets’ reliés par des segments de droite.
- C'est similaire à un nuage de points, sauf que les points de mesure sont ordonnés (généralement par sa valeur sur l'axe des x) et jointe avec des segments de ligne droite.
- Les graphiques linéaires sont généralement utilisés pour trouver des relations entre deux variables numériques ou pour visualiser une tendance dans les données de séries chronologiques..
Dessinons un nuage de points pour évaluer la relation entre Puissance Oui MPG.ville.
8. Carte de chaleurUn "carte de chaleur" est une représentation graphique qui utilise des couleurs pour montrer la densité des données dans une zone spécifique. Couramment utilisé dans l’analyse de données, Etudes marketing et comportementales, Ce type de visualisation vous permet d’identifier rapidement les modèles et les tendances. Par des variations chromatiques, Les cartes thermiques facilitent l’interprétation de grands volumes d’informations, aider à prendre des décisions éclairées....
- Une carte thermique est une représentation graphique bidimensionnelle de données, tandis que les valeurs de la matrice sont représentées dans différentes nuances de couleurs.
- Une carte thermique est destinée à fournir un résumé visuel codé par couleur des données / information.
- Seaborn permet également des cartes thermiques annotées.
Dessinons une carte thermique pour représenter la matrice de corrélation de voitures93 Les données.
9. Cadre de violon
- Les diagrammes de violon sont similaires à la boîtes à moustachesDiagrammes encadrés, Aussi connu sous le nom de diagrammes en boîte et à moustaches, sont des outils statistiques qui représentent la distribution d’un ensemble de données. Ces diagrammes montrent la médiane, quartiles et valeurs aberrantes, Permettre de visualiser la variabilité et la symétrie des données. Ils sont utiles pour la comparaison entre différents groupes et pour l’analyse exploratoire, faciliter l’identification des tendances et des modèles dans les données...., sauf qu'ils montrent également la densité de probabilité des données à différentes valeurs. En d'autres termes, les diagramme de violonLe diagramme du violon est une représentation graphique qui combine les caractéristiques d’une boîte à moustaches et d’un graphique de densité. Utilisé pour visualiser la distribution d’un ensemble de données, montrant à la fois la médiane et la variabilité par leur forme, qui ressemble à un violon. Ce type de graphique est très utile dans l’analyse statistique, puisqu’il permet de comparer plusieurs distributions de manière claire et efficace.... Il s’agit d’une combinaison d’une boîte à moustaches et d’un diagramme de densité.
- Des sections plus larges du tracé du violon indiquent une probabilité plus élevée, tandis que les sections étroites indiquent une probabilité plus faible.
L'intrigue du violon de la Prix La fonction est montrée ci-dessous.
De la même manière, nous pouvons le personnaliser en utilisant comploter pour afficher le tableau et tous les points de données.
10. Mot nuage
- Word Cloud est une technique de visualisation pour représenter la fréquence des mots dans un segment de texte donné.
- La taille d'un mot indique à quelle fréquence il apparaît dans le texte. Plus la taille est grande, plus l'importance (la fréquence), tandis que plus la taille est petite, moins sera l'importance (la fréquence).
- Les nuages de mots sont souvent utilisés pour représenter la fréquence des mots dans les documents texte., rapports, données du site Web, discours publics, etc.
Nuage de mot d'un élu document texte c'est comme indiqué ci-dessous.
Remarques finales
Dans cet article, nous discutons de différents types de graphiques / graphiques utilisant comploter et Python. comploter fortement recommandé pour créer des visualisations interactives.
Les médias présentés dans cet article ne sont pas la propriété de DataPeaker et sont utilisés à la discrétion de l'auteur.