Préparation des données pour l'analyse | Préparer les données et créer Tableau Dashboard

Contenu

Cet article a été publié dans le cadre du Blogathon sur la science des données.

introduction

L'analyse visuelle peut raconter aux utilisateurs l'histoire des données et aide à révéler diverses relations qui ne sont pas facilement identifiées dans les rapports conventionnels..

Dans cet article, Je parle de la façon dont j'ai fait un single tableau de bord dans Tableau pour avoir divulgué les informations fournies par les données sources que j'ai recueillies auprès d'un point d'information humanitaire, ReliefWeb, soutenu par le Bureau des Nations Unies pour la coordination des affaires humanitaires (OCHA).

J'ai téléchargé le fichier pdf sur le rapport – Réponse de l'UNICEF aux réfugiés et aux migrants en Europe: Rapport de situation humanitaire n. ° 39 (du 1 de janvier à 31 Mars 2021)".

Dans cet article, J'explique certaines étapes courantes que vous devrez peut-être suivre lors de la préparation de l'analyse, comment calculer de nouveaux champs et mettre en évidence diverses actions pour améliorer les visualisations et révéler des informations cachées.

Alors maintenant, nous avons les données et la prochaine étape consiste à générer des informations à partir de ce. Commençons!

Comment préparer les données?

Le premier est le premier, nous devons nous assurer que toutes les données sont correctement placées dans la section dimensions et mesures et nous devons nettoyer le Panneau de données.

On peut dire que dans le workflow d'analyse des données, Les données préparation c'est une étape critique. Au fur et à mesure que nous affinons les données, nous n'aurons peut-être besoin que de certains champs sélectionnés du fichier source pour notre analyse. Parfois, nous devons également calculer des champs à partir de champs existants pour décrire clairement l'historique de nos données.

Dimensions et mesures:

Tableau trie les données en deux (vous pouvez voir la division dans le volet Données): Dimensions et mesures, où le premier désigne des données qualitatives (Couleur bleu) et la seconde désigne des données quantitatives (couleur verte). Cependant, l'ID d'enregistrement ou le numéro de série est numérique et n'a pas besoin d'être ajouté (somme ou moyenne), puis regroupés dans la section Dimensions.

1cul4dd2aqsrbjydjc-jmww-3004305
La préparation des données est une étape critique dans l'analyse des données. crédits images: pixabay.com

Quelques méthodes courantes que vous pouvez appliquer pour préparer vos données:

Tableau possède de nombreuses fonctions intégrées avantageuses qui peuvent transformer des calculs fastidieux en simples.

Vous pouvez sélectionner le champ approprié dans le panneau de gauche et calculer le nouveau les mesures de ce. Si vous souhaitez créer une nouvelle mesure, dans le menu du haut, dans “Une analyse”, sélectionner “Créer un champ calculé” et écrivez la formule pour créer la nouvelle mesure. Exemple: DATE IFF ('minute', [Heure de départ], [Heure de fin]), cette formule renvoie une différence de Starting Time Oui Finishing Time en utilisant 'minute’ comme unité et peut être utilisé pour analyse de tendance.

Un exemple pour calculer dimension est le calcul des week-ends et jours ouvrables:

SI DATEPART('journée', [Heure de départ]) = 1
OU
DATEPARTIE('journée', [Heure de départ]) = 7
ALORS
'Fin de semaine'
AUTRE
'Jour de la semaine'
FINIR

En outre, diviser l'information en petits morceaux avec des perspectives différentes, nous devrons peut-être appliquer émincer souvent dans la préparation des données. Par exemple, si vous souhaitez étendre les données en définissant des plages horaires. Celui-ci peut être composé de quatre périodes de six heures: Nuit (12 am-6 am). Matin (6 une. M. UNE 12 p. M.), En retard (12 p. M. UNE 6 p. M.) Oui Nuit (6 p. M. UNE 12 une. M.). La formule peut donc s'écrire comme suit:

SI
DATEPARTIE('heure', [Heure de départ])>=0
ET
DATEPARTIE('heure', [Heure de départ]) < 6 
PUIS 'Nuit'
ELSEIF
DATEPARTIE('heure', [Heure de départ])>=6
ET
DATEPARTIE('heure', [Heure de départ]) < 12
PUIS 'Matin'
ELSEIF DATEPART('heure', [Heure de départ])>=12
ET
DATEPARTIE('heure', [Heure de départ]) < 18 
PUIS 'Après-midi'
AUTRE 'Soir'
FINIR

Surligneur– C'est un outil utile pour trouver des modèles et identifier et mettre en évidence des données tout en conservant le contexte de toutes les données dans la vue. Exemple: dans le menu du haut, sélectionner “Une analyse”> “Surligneurs”> “Nom de domaine”.

Pour modifier les propriétés par défaut, cliquez avec le bouton droit sur le nom du champ dans le volet Données. Dans “Propriétés par défaut”> “Format de nombre”, sélectionner “Le numéro (personnalisé)” et vous pouvez spécifier les détails dans la fenêtre ouverte comme la capture d'écran ci-dessous.

1z1iwenss4ysmnsvgnqivwa-3619817
Les propriétés par défaut peuvent être modifiées pour les champs obligatoires

À afficher la fenêtre de filtre avec le bouton Appliquer, Faites un clic droit sur votre champ pour filtrer et cliquez “afficher le filtre”. Une petite case s'affichera dans la légende pour filtrer sur le champ sélectionné. Ensuite, cliquez sur l'icône déroulante en haut à droite et, dans “Personnaliser”, sélectionner “Afficher le bouton Appliquer”.

Pendant le processus de préparation, vous devrez peut-être beaucoup nettoyer la table et, parfois, combiner le tri et le filtrage.

1vrmnx294ccb3wfx-ftx1sg-5908220
exclure des champs de la table

Analyse exploratoire des tendances à l'aide de visualisations:

Nous pouvons trouver des tendances dans les données en utilisant un champ de date et d'heure, comment examiner divers modèles de secondes, l'heure, l'année, etc.

Analyse en temps discret et continu:

Tableau est idéal pour afficher le temps en tant que Discret ou Continu lorsqu'il est appliqué à une visualisation. Lorsque vous faites glisser un champ de date sur le canevas, vous devrez décider si vous voulez qu'il soit continu ou discret et à quel niveau vous voulez qu'il soit présenté (Exemple: la valeur du jour, temps, minute).

Vous pouvez changer le type d'affichage en “Ligne”, “Zone”, “bar”, etc. dans le Carte de marque. Pour changer le titre dans la boîte de dialogue, vous pouvez double-cliquer sur l'axe x ou l'axe y. Pour modifier le format des étiquettes de l'axe des X, vous pouvez cliquer avec le bouton droit sur une étiquette d'axe x et vous pouvez effectuer “Format”. Pour activer les étiquettes de marque, dans le Carte de marque, sélectionnez l'icône T pour “Étiqueter” puis vérifier “Afficher les marques de balise”. En outre, l'utilisation de “Calcul rapide des tableaux", Vous pouvez également faire des mesures calculées si facilement et rapidement.

1pk1urey3ogequri1_kdafg-8967739
Calcul rapide des tableaux

Vous pouvez voir la différence entre calcul à travers contre vers le bas la table. Si on faisait le calcul croisé, on obtiendrait la distribution des valeurs dans le tableau. L'un n'est pas forcément meilleur que l'autre, ça dépend juste de ce que tu cherches! Les deux valent souvent la peine d'être explorés.

En outre, Tableau nous permet de créer rapidement des visualisations créatives comme Graphique à bulles. En regardant toutes les bulles ensemble, nous pouvons analyser les tendances générales de notre analyse par la surface des couleurs et l'autre champ également par la taille de toutes les bulles dans ce champ.

1goensj8wnbebpajh8fpx0a-4439753
un exemple de graphique à bulles dans Tableau

Cela suffit pour préparer l'analyse.. Il existe plusieurs façons d'obtenir une réponse à votre question en analysant le problème séparément. La meilleure solution serait un panneau de contrôle qui vous permet de filtrer de manière interactive !! Dans la partie suivante, nous allons rassembler les données dans un panneau interactif afin que la résolution de nos questions soit très simple.

Les médias présentés dans cet article ne sont pas la propriété de DataPeaker et sont utilisés à la discrétion de l'auteur.

Abonnez-vous à notre newsletter

Nous ne vous enverrons pas de courrier SPAM. Nous le détestons autant que vous.