introduction
L'analyse exploratoire des données est l'une des meilleures pratiques utilisées dans la science des données aujourd'hui. Au début d'une carrière dans la science des données, les gens ne connaissent généralement pas la différence entre l'analyse de données et l'analyse de données exploratoire. Il n'y a pas une grande différence entre les deux, mais ils ont tous deux des objectifs différents.
L'analyse exploratoire des données (AED): l'analyse exploratoire des données est un complément Statistiques déductives, qui a tendance à être assez rigide avec des règles et des formules. A un niveau avancé, L'EDA consiste à examiner et à décrire l'ensemble de données sous différents angles, puis à le résumer.
Analyse de données: l'analyse des données est la statistique et la probabilité de découvrir des tendances dans l'ensemble de données. Utilisé pour afficher les données historiques en utilisant certains outils d'analyse. Aide à décomposer les informations pour transformer les métriques, faits et chiffres sur les initiatives d'amélioration.
L'analyse exploratoire des données (AED)
Nous allons explorer un ensemble de données et effectuer une analyse exploratoire des données en Python. Vous pouvez consulter notre cours de python en ligne pour embarquer avec Python.
Les principaux sujets à traiter sont les suivants:
– Gérer la valeur manquante
– Supprimer les doublons
– Traitement des valeurs aberrantes
– NormalisationLa normalisation est un processus fondamental dans diverses disciplines, qui vise à établir des normes et des critères uniformes afin d’améliorer la qualité et l’efficacité. Dans des contextes tels que l’ingénierie, Formation et administration, La standardisation facilite la comparaison, Interopérabilité et compréhension mutuelle. Lors de la mise en œuvre des normes, La cohésion est favorisée et les ressources sont optimisées, qui contribue au développement durable et à l’amélioration continue des processus.... et la mise à l’échelle (variables numériques)
– Codage des variables catégorielles (variables muettes)
– Analyse bivariée
# Importation de bibliothèques
# Chargement du jeu de données
Nous allons charger le fichier Excel des voitures EDA à l'aide de pandas. Pour ca, nous utiliserons le fichier read_excel.
# Exploration des données de base
Dans cette étape, Nous allons effectuer les opérations suivantes pour vérifier de quoi est composé l'ensemble de données. Nous allons vérifier les choses suivantes:
– gestionnaire de jeux de données
– la forme de l'ensemble de données
– informations sur l'ensemble de données
– résumé de l'ensemble de données
- La fonction head vous indiquera les meilleurs enregistrements de l'ensemble de données. Par défaut, Python ne vous montre que le 5 registres principaux.
L'attribut shape nous indique une série d'observations et de variables que nous avons dans l'ensemble de données. Il est utilisé pour vérifier le dimension"Dimension" C’est un terme qui est utilisé dans diverses disciplines, comme la physique, Mathématiques et philosophie. Il s’agit de la mesure dans laquelle un objet ou un phénomène peut être analysé ou décrit. En physique, par exemple, On parle de dimensions spatiales et temporelles, alors qu’en mathématiques, il peut faire référence au nombre de coordonnées nécessaires pour représenter un espace. Sa compréhension est fondamentale pour l’étude et... des données. L'ensemble de données automobiles a 303 observations et 13 variables dans l'ensemble de données.
Info () utilisé pour vérifier les informations sur les données et les types de données de chaque attribut respectif.
En regardant les données dans la fonction principale et dans les informations, Nous savons que le variableEn statistique et en mathématiques, ongle "variable" est un symbole qui représente une valeur qui peut changer ou varier. Il existe différents types de variables, et qualitatif, qui décrivent des caractéristiques non numériques, et quantitatif, représentation de grandeurs numériques. Les variables sont fondamentales dans les expériences et les études, puisqu’ils permettent l’analyse des relations et des modèles entre différents éléments, faciliter la compréhension de phénomènes complexes.... Le revenu et le temps de trajet sont des types de données flottants au lieu de l’objet. Ensuite, nous en ferons le flotteur. En outre, il y a des valeurs invalides comme @@ et ‘*'Dans les données que nous traiterons comme des valeurs manquantes.
La méthode décrite aidera à voir comment les données ont été distribuées pour les valeurs numériques. On voit clairement la valeur minimale, valeurs moyennes, différentes valeurs centiles et valeurs maximales.
Gestion de la valeur manquante
Nous pouvons voir que nous avons plusieurs valeurs manquantes dans les colonnes respectives. Il existe plusieurs façons de traiter les valeurs manquantes dans l'ensemble de données. Et quelle technique utiliser quand cela dépend vraiment du type de données que vous traitez.
- Éliminer les valeurs manquantes: dans ce cas, nous éliminons les valeurs manquantes de ces variables. En cas de très peu de valeurs manquantes, peut les supprimer.
- Imputer avec la valeur moyenne: pour la colonne numérique, vous pouvez remplacer les valeurs manquantes par des valeurs moyennes. Avant de remplacer par la valeur moyenne, il est conseillé de vérifier que la variable ne doit pas avoir de valeurs extrêmes.c'est-à-dire des valeurs aberrantes.
- Imputer avec la valeur médiane: pour la colonne numérique, vous pouvez également remplacer les valeurs manquantes par des valeurs médianes. Si vous avez des valeurs extrêmes, comme valeurs aberrantes, Il est conseillé d’utiliser la méthode de médianLa médiane est une mesure statistique qui représente la valeur centrale d’un ensemble de données ordonnées. Pour le calculer, Les données sont organisées de la plus basse à la plus élevée et le numéro au milieu est identifié. S’il y a un nombre pair d’observations, La moyenne des deux valeurs fondamentales est calculée. Cet indicateur est particulièrement utile dans les distributions asymétriques, puisqu’il n’est pas affecté par les valeurs extrêmes.....
- Imputer avec la valeur de mode: pour la colonne catégorielle, vous pouvez remplacer les valeurs manquantes par des valeurs de mode, c'est-à-dire, le fréquent.
Dans cet exercice, nous remplacerons les colonnes numériques par des valeurs médianes et, pour les colonnes catégorielles, nous supprimerons les valeurs manquantes.
Gestion des enregistrements en double
Depuis que nous avons 14 enregistrements en double dans les données, nous le supprimerons de l'ensemble de données pour n'obtenir que des enregistrements distincts. Après avoir supprimé le doublon, nous vérifierons si les doublons ont été supprimés de l'ensemble de données ou non.
Traitement des valeurs aberrantes
Valeurs aberrantes, étant les observations les plus extrêmes, peut inclure le maximum ou le minimum de l'échantillon, les deux, selon qu'ils sont extrêmement élevés ou faibles. Cependant, le maximum et le minimum de l'échantillon ne sont pas toujours des valeurs aberrantes car ils peuvent ne pas être anormalement éloignés des autres observations.
Nous identifions généralement les valeurs aberrantes à l'aide de la boîte à moustaches, donc ici, la boîte à moustaches montre certains des points de données en dehors de la plage de données.
En regardant le box plot, il semble que les variables REVENU, ont des valeurs aberrantes présentes dans les variables. Ces valeurs aberrantes doivent être prises en compte et il existe plusieurs façons de les traiter:
- Supprimer la valeur aberrante
- Remplacer la valeur aberrante à l'aide de l'IQR
#Boxplot Après suppression de la valeur aberrante
Analyse bivariée
Quand on parle d'analyse bivariée, signifie analyser 2 variables. Comme nous savons qu'il existe des variables numériques et catégorielles, il existe un moyen d'analyser ces variables comme indiqué ci-dessous:
Numérique vs numérique
1. Diagramme de dispersionLe nuage de points est un outil graphique utilisé en statistiques pour visualiser la relation entre deux variables. Il se compose d’un ensemble de points dans un plan cartésien, où chaque point représente une paire de valeurs correspondant aux variables analysées. Ce type de graphique vous permet d’identifier des modèles, Tendances et corrélations possibles, faciliter l’interprétation des données et la prise de décision sur la base des informations visuelles présentées....
2. Graphique linéaireLe graphique linéaire est un outil visuel utilisé pour représenter les données au fil du temps. Il se compose d’une série de points reliés par des droites, qui vous permet d’observer les tendances, Fluctuations et modèles dans les données. Ce type de graphique est particulièrement utile dans des domaines tels que l’économie, Météorologie et recherche scientifique, ce qui facilite la comparaison de différents ensembles de données et l’identification des comportements à tous les niveaux..
3. Carte de chaleurUn "carte de chaleur" est une représentation graphique qui utilise des couleurs pour montrer la densité des données dans une zone spécifique. Couramment utilisé dans l’analyse de données, Etudes marketing et comportementales, Ce type de visualisation vous permet d’identifier rapidement les modèles et les tendances. Par des variations chromatiques, Les cartes thermiques facilitent l’interprétation de grands volumes d’informations, aider à prendre des décisions éclairées.... pour la corrélation
4. Terrain communCatégorique vs Numérique
1. Graphique à barresLe graphique à barres est une représentation visuelle des données qui utilise des barres rectangulaires pour montrer des comparaisons entre différentes catégories. Chaque barre représente une valeur et sa longueur est proportionnelle à celle-ci. Ce type de graphique est utile pour visualiser et analyser les tendances, faciliter l’interprétation des informations quantitatives. Il est largement utilisé dans diverses disciplines, tels que les statistiques, Marketing et recherche, En raison de sa simplicité et de son efficacité....
2. Cadre de violon
3. Box plot catégoriel
4.parcelle chaleureuseDeux variables catégorielles
1. Graphique à barres
2. Graphique à barres groupées
3. Graphique à points
Si nous devons trouver la corrélation-
Normaliser et mettre à l'échelle
Souvent, les variables de l'ensemble de données sont d'échelles différentes, c'est-à-dire, une variable est en millions et d'autres en seulement 100. Par exemple, dans notre jeu de données, le revenu a des valeurs en milliers et l'âge en seulement deux chiffres. Étant donné que les données de ces variables sont d'échelles différentes, il est difficile de comparer ces variables.
L'échelle des caractéristiques (également connu sous le nom de normalisation des données) est la méthode utilisée pour normaliser l'éventail des caractéristiques des données. Étant donné que la plage de valeurs de données peut varier considérablement, devient une étape nécessaire dans le prétraitement des données tout en utilisant des algorithmes d'apprentissage automatique.
Dans cette méthode, nous convertissons des variables avec différentes échelles de mesure en une seule échelle. StandardScaler normalise les données à l'aide de la formule (x-moyenne) / écart-type. Nous le ferons uniquement pour les variables numériques.
CODAGE
One-Hot-Encoding est utilisé pour créer des variables fictives pour remplacer les catégories dans une variable catégorielle dans les caractéristiques de chaque catégorie et la représenter en utilisant 1 O 0 selon la présence ou l'absence de la valeur catégorielle dans le registre.
Ceci est nécessaire, puisque les algorithmes d'apprentissage automatique ne fonctionnent qu'avec des données numériques. C'est pourquoi il est nécessaire de convertir la colonne catégorique en numérique.
get_dummies est la méthode qui crée une variable fictive pour chaque variable catégorielle.
A propos de l'auteur
Ritika Singh | – Data scientist
Je suis data scientist de profession et blogueur par passion. J'ai travaillé sur des projets d'apprentissage automatique pendant plus de 2 ans. Vous trouverez ici des articles sur « L'apprentissage automatique, Statistiques, L'apprentissage en profondeur, PNL et Intelligence Artificielle".