Analyse exploratoire | Analyse univariée, bivarié et multivarié

Contenu

introduction

Les données sont partout autour de nous, dans des feuilles de calcul, sur diverses plateformes de médias sociaux, dans les formulaires d'enquête et plus. Le processus de nettoyage, transformation, interprétation, l'analyse et la visualisation de ces données pour extraire des informations utiles et obtenir des informations précieuses pour prendre des décisions commerciales plus efficaces s'appelle Data Analytics.

L'analyse des données peut être organisée en 6 les types

  1. Analyse exploratoire
  2. Analyse descriptive
  3. analyse inférentielle
  4. Analyses prédictives
  5. analyse causale
  6. analyse mécaniste

Ici, nous plongerons profondément dans Analyse exploratoire,

Analyse exploratoire

Analyse préliminaire des données pour découvrir les relations entre les mesures dans les données et se faire une idée des tendances, les modèles et les relations entre les différentes entités présentes dans l'ensemble de données à l'aide de statistiques et d'outils de visualisation s'appellent l'analyse exploratoire des données (AED). .

L'analyse exploratoire des données est classée de deux manières différentes, chaque méthode étant graphique ou non graphique. Et après, chaque méthode est univariée, bivarié ou multivarié.

Analyse univariée

Uni signifie un et variable signifie variable, donc en analyse univariée, il n'y a qu'une seule variable fiable. Le but de l'analyse univariée est de dériver les données, les définir et les résumer et analyser le modèle présent en eux. dans un ensemble de données, explorer chaque variable séparément. Il est possible pour deux types de variables: catégorique et numérique.

Certains modèles qui peuvent être facilement identifiés avec l'analyse univariée sont la tendance centrale (médias, mode et médiane), Dispersion (rang, variance), quartile (gamme interquartile) et écart type.

Les données univariées peuvent être décrites par:

Ø Tableaux de répartition des fréquences

Le tableau de distribution de fréquence reflète la fréquence à laquelle une occurrence s'est produite dans les données.. Donne un bref aperçu des données et facilite la recherche de modèles.

Exemple:

La liste des scores de QI est: 118, 139, 124, 125, 127, 128, 129, 130, 130, 133, 136, 138, 141, 142, 149, 130, 154.

Classement QILe numéro
118-1253
126-1337
134-1414
142-1492
150-1571

Ø Graphique à barres

Le graphique à barres est très pratique pour comparer des catégories de données ou différents groupes de données. Aide à suivre les changements au fil du temps. Idéal pour visualiser des données discrètes.

image10-9478352

Ø Histogrammes

Les histogrammes sont similaires aux graphiques à barres et affichent les mêmes variables catégorielles dans la catégorie de données. Les histogrammes sont similaires aux graphiques à barres et affichent les mêmes variables catégorielles dans la catégorie de données. Les histogrammes sont similaires aux graphiques à barres et affichent les mêmes variables catégorielles dans la catégorie de données.

Les histogrammes sont similaires aux graphiques à barres et affichent les mêmes variables catégorielles dans la catégorie de données

Ø Camemberts

Les histogrammes sont similaires aux graphiques à barres et affichent les mêmes variables catégorielles dans la catégorie de données. Les histogrammes sont similaires aux graphiques à barres et affichent les mêmes variables catégorielles dans la catégorie de données 100 Les histogrammes sont similaires aux graphiques à barres et affichent les mêmes variables catégorielles dans la catégorie de données.

Les histogrammes sont similaires aux graphiques à barres et affichent les mêmes variables catégorielles dans la catégorie de données

Ø Les histogrammes sont similaires aux graphiques à barres et affichent les mêmes variables catégorielles dans la catégorie de données

Les histogrammes sont similaires aux graphiques à barres et affichent les mêmes variables catégorielles dans la catégorie de données, Les histogrammes sont similaires aux graphiques à barres et affichent les mêmes variables catégorielles dans la catégorie de données.

Les histogrammes sont similaires aux graphiques à barres et affichent les mêmes variables catégorielles dans la catégorie de données

Analyse bivariée

Bi signifie deux et variable signifie variable, Pour ce que voici deux variables. L'analyse est liée à la cause et à la relation entre les deux variables. Il existe trois types d'analyse bivariée.

Analyse bivariée de deux variables numériques (Numérique-Numérique)

Ø Nuage de points

UNE Le nuage de points représente des données individuelles à l'aide de points. Ces graphiques permettent de voir facilement si deux variables sont liées l'une à l'autre.. Le motif résultant indique le type (linéaire ou non linéaire) et la force de la relation entre deux variables.

image8-2-1095367

Ø corrélation linéaire

Direct Correlation représente la force d'une relation linéaire entre deux variables numériques. S'il n'y a pas de corrélation entre les deux variables, il n'y a pas de tendance à changer avec les valeurs de la deuxième quantité.

image13-8709111

Ici, r mesure la force d'une relation linéaire et se situe toujours entre -1 Oui 1 où -1 désigne une corrélation linéaire négative parfaite et +1 indique une corrélation linéaire positive parfaite et zéro indique l'absence de corrélation linéaire.image4-1-4052764

Analyse bivariée de deux variables catégorielles (Catégorique-Catégorique)

Ø Test du chi carré

Le test du chi carré est utilisé pour déterminer l'association entre les variables catégorielles. Il est calculé en fonction de la différence entre les fréquences attendues et les fréquences observées dans une ou plusieurs catégories du tableau des fréquences. Une probabilité de zéro indique une dépendance complète entre deux variables catégorielles et une probabilité de un indique que deux variables catégorielles sont complètement indépendantes..

Ici, l'indice c indique les degrés de liberté, O indique la valeur observée et E indique la valeur attendue.

image12-8200380

Análisis bivariado de una variable numérica y una categórica (Numérique-Catégorique)

Ø Test Z et test t

Les tests Z et t sont importants pour calculer si la différence entre un échantillon et une population est substantielle..

image1-8687716

Si la probabilité de Z est petite, la différence entre les deux moyennes est plus importante.

Tester T

image9-2150508

Si la taille de l'échantillon est suffisamment grande, nous utilisons un test Z, et pour un petit échantillon, nous utilisons un test t.

Ø ANALYSE DE VARIANCE (ANOVA)

Le test ANOVA est utilisé pour déterminer s'il existe une différence significative entre les moyennes de plus de deux groupes statistiquement différents l'un de l'autre.. Cette analyse est appropriée pour comparer les moyennes d'une variable numérique pour plus de deux catégories d'une variable catégorielle..

image2-1-2645045

Analyse multivariable

L'analyse multivariée est nécessaire lorsque plus de deux variables doivent être analysées simultanément. C'est une tâche extrêmement difficile pour le cerveau humain de visualiser une relation entre 4 variables dans un graphique et, donc, l'analyse multivariée est utilisée pour étudier des ensembles de données plus complexes. Les types d'analyse multivariée comprennent l'analyse par grappes, analyse factorielle, analyse de régression multiple, analyse des composants principaux, etc. Il y a plus que 20 différentes manières d'effectuer une analyse multivariée et laquelle choisir dépend du type de données et de l'objectif final à atteindre. Les formes les plus courantes sont:

Ø Analyse groupée

L'analyse de cluster classe différents objets en clusters de telle sorte que la similarité entre deux objets dans le même groupe soit maximale et minimale dans le cas contraire.. Il est utilisé lorsque les lignes et les colonnes du La table de données représente les mêmes unités et la mesure représente la distance ou la similarité.

image7-3792319

Ø Analyse des composants principaux (APC)

Analyse des composants principaux (o APC) utilisé pour réduire la dimensionnalité d'un tableau de données avec un grand nombre de mesures interdépendantes. Ici, les variables d'origine deviennent un nouvel ensemble de variables, qui sont connus comme les “Composants principaux” à partir de l'analyse en composantes principales.

PCA est utilisé pour l'ensemble de données montrant la multicolinéarité. Bien que les estimations des moindres carrés soient biaisées, la distance entre les variances et leur vraie valeur peut être vraiment grande. Ensuite, L'ACP ajoute un biais et réduit l'erreur type pour le modèle de régression.

image3-1-1482659

Ø analyse des correspondances

L'analyse des correspondances utilisant les données d'un tableau de contingence montre les relations relatives entre deux groupes différents de variables. Un tableau de contingence est un tableau 2D avec des lignes et des colonnes comme groupes de variables..

image5-1-7331464

conclusion

J'espère que vous avez maintenant une meilleure compréhension des différentes techniques utilisées dans l'analyse univariée., bivarié et multivarié.

Les médias présentés dans cet article ne sont pas la propriété de DataPeaker et sont utilisés à la discrétion de l'auteur.

Abonnez-vous à notre newsletter

Nous ne vous enverrons pas de courrier SPAM. Nous le détestons autant que vous.