Maîtrise de l'analyse exploratoire des données (AED) pour les passionnés de data science

Contenu

Vue d'ensemble

  • Approche étape par étape pour effectuer l'EDA
  • Des ressources comme des blogs, MOOCS pour se familiariser avec EDA
  • Se familiariser avec diverses techniques de visualisation de données, graphiques et schémas.
  • Démonstration de quelques étapes avec l'extrait de code Python

Ce qui différencie un professionnel de la science des données d'un autre?

Ce n'est pas de l'apprentissage automatique, ce n'est pas l'apprentissage en profondeur, ce n'est pas du SQL, est l'analyse exploratoire des données (AED). À quel point est-on doué pour identifier les modèles / Tendances des données cachées et valeur des informations extraites, est ce qui distingue les professionnels des données.

1. Qu'est-ce que l'analyse de données exploratoire?

L'analyse exploratoire des données est une approche d'analyse des ensembles de données pour résumer leurs principales caractéristiques, utilisant souvent des graphiques statistiques et d'autres méthodes de visualisation de données.
EDA aide les professionnels de la science des données de plusieurs manières: –

1 Mieux comprendre les données
2 Identifier divers modèles de données
3 Mieux comprendre l'énoncé du problème

[ Noter: les base de données in this blog is being opted as iris dataset]

2. Vérification des détails d'introduction sur les données

La première et la plus importante étape de toute analyse de données, après avoir chargé le fichier de données, devrait consister à vérifier quelques détails introductifs. Quoi, non. Des colonnes, non. de rangées, types de fonctionnalités (catégorique ou numérique), types de données d'entrée de colonne.

Extrait de code Python

data.info ()


Index de plage: 150 billets, 0 une 149
Colonnes de données (5 colonnes au total):
# Colonne Type de nombre non nul
– —— ————– —–
0 longueur_sépale 150 non nul float64
1 sepal_width 150 float64 non nul
2 longueur_pétale 150 non nul float64
3 pétale_largeur 150 non nul float64
4 espèce 150 objet non nul
types: float64 (4), objet (1)
utilisation de la mémoire: 6.0+ Ko

data.head () Pour afficher les cinq premières lignes

30861nouveau20blog-8287175

data.tail () pour afficher les cinq dernières lignes

40174blog2-6133290

3. Point de vue statistique

Cette étape doit être effectuée pour obtenir des détails sur diverses données statistiques en tant que moyenne, écart-type, médian, valeur maximum, valeur minimum.

Extrait de code Python

données.décrire ()

27711capture1-1679038

4. Nettoyage des données

C'est l'étape la plus importante de l'EDA qui consiste à supprimer des lignes / colonnes en double, remplir les entrées vides avec des valeurs comme la moyenne / médiane des données, supprimer plusieurs valeurs, supprimer les entrées nulles

Vérification des entrées nulles

Extrait de code Python

data.IsNull (). sum da el número de valores perdidos para cada variable

47799blog4-3722464

Supprimer les entrées nulles

Extrait de code Python

data.dropna (axe = 0, en place = vrai) S'il y a des entrées nulles

Remplir des valeurs au lieu d'entrées nulles (si c'est une fonction numérique)

Les valeurs peuvent être la moyenne, la médiane ou tout nombre entier

Extrait de code Python

Les données["sepal_length"].remplir (valeur = données["sepal_length"].moyenne (), en place = vrai) s'il y a une entrée nulle

Vérification des doublons

Extrait de code Python

données.dupliquées (). somme () renvoie le nombre total d'entrées en double

Supprimer les doublons

Extrait de code Python

data.drop_duplicates (en place = vrai)

5. Visualisation de données

La visualisation des données est la méthode de conversion des données brutes en une forme visuelle, comme une carte ou un graphique, pour faciliter la compréhension des données et extraire des informations utiles..

L'objectif principal de la visualisation de données est de mettre de grands ensembles de données dans une représentation visuelle. C'est l'une des étapes importantes et faciles en matière de science des données.

Vous pouvez consulter le blog ci-dessous pour plus de détails sur la visualisation des données.

Différents types d'analyse de visualisation sont:

ongle. Analyse univariée:

Cela montre chaque observation / distribution des données dans une seule variable de données.. Se puede mostrar con la ayuda de varios diagramas como Diagramme de dispersion, schéma de ligne, diagramme d'histogramme (résumé), boîtes à moustaches, diagramme de violon, etc.

B. Analyse bi-variable:

Des écrans d'analyse bivariée sont effectués pour révéler la relation entre deux variables de données. Il peut également être représenté à l'aide de diagrammes de dispersion, histogrammes, cartes thermiques, boîtes à moustaches, diagrammes de violon, etc.

C. Analyse multivariable:

Analyse multivariée, comme le nom le suggère, sont affichés pour révéler la relation entre plus de deux variables de données.

Diagrammes de dispersion, histogrammes, boîtes à moustaches, les diagrammes de violon peuvent être utilisés pour l'analyse multivariée

Plusieurs parcelles

Vous trouverez ci-dessous quelques-uns des graphiques pouvant être implémentés pour une analyse univariée, bivarié et multivarié

ongle. Nuage de points

Extrait de code Python

plt.figure (taille de la figue = (17,9))
plt.titre (« Comparaison entre différentes espèces selon la longueur et la largeur du sapel »)
sns.scatterplot (Les données['sepal_length'],Les données['sepal_width'], ton = données['espèce'], s = 50)

39544b2-5963817

Pour l'analyse multivariée

Extrait de code Python

sns.pairplot (Les données, teinte = "espèce", hauteur = 4)

71974bl4-3866710

B. Box plot

Box plot pour voir comment la caractéristique catégorielle est distribuée “Espèce” avec les quatre autres variables d'entrée

Extrait de code Python

figure, axes = plt.subplots (2, 2, taille de la figue = (16,9))
sns.boxplot (y = “pétale_largeur”, x = “espèce”, données = iris_data, orienter = 'v', hache = haches[0, 0])
sns.boxplot (y = “longueur_pétale”, x = “espèce”, données = iris_data, orienter = 'v', hache = haches[0, 1])
sns.boxplot (y = " longueur_sepal ", x = "espèce", données = iris_data, orienter = 'v', hache = haches[1, 0])
sns.boxplot (y = “sepal_width”, x = “espèce”, données = iris_data, orienter = 'v', hache = ejes[1, 1])
plt.show ()

61799télécharger203-8139265

C. Cadre de violon

Plus informatif que la boîte à moustaches et montre la distribution complète des données.

Extrait de code Python

figure, axes = plt.subplots (2, 2, taille de la figue = (16,10))
sns.violinplot (y = "pétale_largeur", x = "espèce", données = iris_data, orienter = 'v', hache = haches[0, 0], intérieur = 'quartile')
sns.violinplot (y = “longueur_pétale”, x = “espèce”, données = iris_data, orienter = 'v', hache = ejes[0, 1], intérieur = 'quartile')
sns.violinplot (y = " longueur_sepal ", x = "espèce", données = iris_data, orienter = 'v', hache = haches[1, 0], intérieur = 'quartile')
sns.violinplot (y = "sepal_width", x = "espèce", données = iris_data, orienter = 'v', hache = haches[1, 1], intérieur = 'quartile')
plt.show ()

74915télécharger205-2021386

ré. Histogrammes

Peut être utilisé pour visualiser la fonction de densité de probabilité (PDF)

Extrait de code Python

sns.FacetGrid (iris_data, teinte = "espèce", hauteur = 5)
.carte (sns.distplot, “pétale_largeur”)
.ajouter_légende ();

21544télécharger207-8163074

Sur ce je termine ce blog.
Bonjour à tous, Namaste
Je m'appelle Pranshu Sharma et je suis un passionné de science des données
Merci beaucoup d'avoir pris votre temps précieux pour lire ce blog.. N'hésitez pas à signaler d'éventuelles erreurs (après tout, je suis apprenti) et fournir les commentaires correspondants ou laisser un commentaire.
Dhanyvaad !!
Retour d'information:
Courrier électronique: [email protégé]

Vous pouvez vous référer au blog mentionné ci-dessous pour vous familiariser avec l'analyse exploratoire des données.

Les médias présentés dans cet article ne sont pas la propriété de DataPeaker et sont utilisés à la discrétion de l'auteur.

Abonnez-vous à notre newsletter

Nous ne vous enverrons pas de courrier SPAM. Nous le détestons autant que vous.