introduction
Les données sont partout autour de nous, dans des feuilles de calcul, sur diverses plateformes de médias sociaux, dans les formulaires d'enquête et plus. Le processus de nettoyage, transformation, interprétation, l'analyse et la visualisation de ces données pour extraire des informations utiles et obtenir des informations précieuses pour prendre des décisions commerciales plus efficaces s'appelle Data Analytics.
L'analyse des données peut être organisée en 6 les types
- Analyse exploratoire
- Analyse descriptive
- analyse inférentielle
- Analyses prédictives
- analyse causale
- analyse mécaniste
Ici, nous plongerons profondément dans Analyse exploratoire,
Analyse exploratoire
Analyse préliminaire des données pour découvrir les relations entre les mesures dans les données et se faire une idée des tendances, les modèles et les relations entre les différentes entités présentes dans l'ensemble de données à l'aide de statistiques et d'outils de visualisation s'appellent l'analyse exploratoire des données (AED). .
L'analyse exploratoire des données est classée de deux manières différentes, chaque méthode étant graphique ou non graphique. Et après, chaque méthode est univariée, bivarié ou multivarié.
Analyse univariée
Uni signifie un et variable signifie variable, donc en analyse univariée, il n'y a qu'une seule variable fiable. Le but de l'analyse univariée est de dériver les données, les définir et les résumer et analyser le modèle présent en eux. dans un ensemble de données, explorer chaque variable séparément. Il est possible pour deux types de variables: catégorique et numérique.
Certains modèles qui peuvent être facilement identifiés avec l'analyse univariée sont la tendance centrale (médias, mode et médiane), Dispersion (rang, variance), quartile (gamme interquartile) et écart type.
Les données univariées peuvent être décrites par:
Ø Tableaux de répartition des fréquences
Le tableau de distribution de fréquence reflète la fréquence à laquelle une occurrence s'est produite dans les données.. Donne un bref aperçu des données et facilite la recherche de modèles.
Exemple:
La liste des scores de QI est: 118, 139, 124, 125, 127, 128, 129, 130, 130, 133, 136, 138, 141, 142, 149, 130, 154.
Classement QI | Le numéro |
118-125 | 3 |
126-133 | 7 |
134-141 | 4 |
142-149 | 2 |
150-157 | 1 |
Ø Graphique à barres
Le graphique à barres est très pratique pour comparer des catégories de données ou différents groupes de données. Aide à suivre les changements au fil du temps. Idéal pour visualiser des données discrètes.
Ø HistogrammesLes histogrammes sont des représentations graphiques qui montrent la distribution d’un ensemble de données. Ils sont construits en divisant la plage de valeurs en intervalles, O "Bacs", et compter la quantité de données tombées dans chaque intervalle. Cette visualisation vous permet d’identifier des modèles, Tendances et variabilité des données, faciliter l’analyse statistique et la prise de décision éclairée dans diverses disciplines....
Les histogrammes sont similaires aux graphiques à barres et affichent les mêmes variables catégorielles dans la catégorie de données. Les histogrammes sont similaires aux graphiques à barres et affichent les mêmes variables catégorielles dans la catégorie de données. Les histogrammes sont similaires aux graphiques à barres et affichent les mêmes variables catégorielles dans la catégorie de données.
Ø Camemberts
Les histogrammes sont similaires aux graphiques à barres et affichent les mêmes variables catégorielles dans la catégorie de données. Les histogrammes sont similaires aux graphiques à barres et affichent les mêmes variables catégorielles dans la catégorie de données 100 Les histogrammes sont similaires aux graphiques à barres et affichent les mêmes variables catégorielles dans la catégorie de données.
Ø Les histogrammes sont similaires aux graphiques à barres et affichent les mêmes variables catégorielles dans la catégorie de données
Les histogrammes sont similaires aux graphiques à barres et affichent les mêmes variables catégorielles dans la catégorie de données, Les histogrammes sont similaires aux graphiques à barres et affichent les mêmes variables catégorielles dans la catégorie de données.
Analyse bivariée
Bi signifie deux et variable signifie variable, Pour ce que voici deux variables. L'analyse est liée à la cause et à la relation entre les deux variables. Il existe trois types d'analyse bivariée.
Analyse bivariée de deux variables numériques (Numérique-Numérique)
Ø Nuage de pointsUn nuage de points est une représentation visuelle qui montre la relation entre deux variables numériques à l’aide de points sur un plan cartésien. Chaque axe représente une variable, et l’emplacement de chaque point indique sa valeur par rapport aux deux. Ce type de graphique est utile pour identifier des modèles, Corrélations et tendances dans les données, faciliter l’analyse et l’interprétation des relations quantitatives....
UNE Le nuage de points représente des données individuelles à l'aide de points. Ces graphiques permettent de voir facilement si deux variables sont liées l'une à l'autre.. Le motif résultant indique le type (linéaire ou non linéaire) et la force de la relation entre deux variables.
Ø corrélation linéaire
Direct Correlation représente la force d'une relation linéaire entre deux variables numériques. S'il n'y a pas de corrélation entre les deux variables, il n'y a pas de tendance à changer avec les valeurs de la deuxième quantité.
Ici, r mesure la force d'une relation linéaire et se situe toujours entre -1 Oui 1 où -1 désigne une corrélation linéaire négative parfaite et +1 indique une corrélation linéaire positive parfaite et zéro indique l'absence de corrélation linéaire.
Analyse bivariée de deux variables catégorielles (Catégorique-Catégorique)
Ø Test du chi carré
Le test du chi carré est utilisé pour déterminer l'association entre les variables catégorielles. Il est calculé en fonction de la différence entre les fréquences attendues et les fréquences observées dans une ou plusieurs catégories du tableau des fréquences. Une probabilité de zéro indique une dépendance complète entre deux variables catégorielles et une probabilité de un indique que deux variables catégorielles sont complètement indépendantes..
Ici, l'indice c indique les degrés de liberté, O indique la valeur observée et E indique la valeur attendue.
Análisis bivariado de una variableEn statistique et en mathématiques, ongle "variable" est un symbole qui représente une valeur qui peut changer ou varier. Il existe différents types de variables, et qualitatif, qui décrivent des caractéristiques non numériques, et quantitatif, représentation de grandeurs numériques. Les variables sont fondamentales dans les expériences et les études, puisqu’ils permettent l’analyse des relations et des modèles entre différents éléments, faciliter la compréhension de phénomènes complexes.... numérica y una categórica (Numérique-Catégorique)
Ø Test Z et test t
Les tests Z et t sont importants pour calculer si la différence entre un échantillon et une population est substantielle..
Si la probabilité de Z est petite, la différence entre les deux moyennes est plus importante.
Tester T
Si la taille de l'échantillon est suffisamment grande, nous utilisons un test Z, et pour un petit échantillon, nous utilisons un test t.
Ø ANALYSE DE VARIANCE (ANOVA)
Le test ANOVA est utilisé pour déterminer s'il existe une différence significative entre les moyennes de plus de deux groupes statistiquement différents l'un de l'autre.. Cette analyse est appropriée pour comparer les moyennes d'une variable numérique pour plus de deux catégories d'une variable catégorielle..
Analyse multivariable
L'analyse multivariée est nécessaire lorsque plus de deux variables doivent être analysées simultanément. C'est une tâche extrêmement difficile pour le cerveau humain de visualiser une relation entre 4 variables dans un graphique et, donc, l'analyse multivariée est utilisée pour étudier des ensembles de données plus complexes. Les types d'analyse multivariée comprennent l'analyse par grappes, analyse factorielle, analyse de régression multiple, analyse des composants principaux, etc. Il y a plus que 20 différentes manières d'effectuer une analyse multivariée et laquelle choisir dépend du type de données et de l'objectif final à atteindre. Les formes les plus courantes sont:
Ø Analyse groupée
L'analyse de cluster classe différents objets en clusters de telle sorte que la similarité entre deux objets dans le même groupe soit maximale et minimale dans le cas contraire.. Il est utilisé lorsque les lignes et les colonnes du La table de données représente les mêmes unités et la mesure représente la distance ou la similarité.
Ø Analyse des composants principaux (APC)
Analyse des composants principaux (o APC) utilisé pour réduire la dimensionnalité d'un tableau de données avec un grand nombre de mesures interdépendantes. Ici, les variables d'origine deviennent un nouvel ensemble de variables, qui sont connus comme les “Composants principaux” à partir de l'analyse en composantes principales.
PCA est utilisé pour l'ensemble de données montrant la multicolinéarité. Bien que les estimations des moindres carrés soient biaisées, la distance entre les variances et leur vraie valeur peut être vraiment grande. Ensuite, L'ACP ajoute un biais et réduit l'erreur type pour le modèle de régression.
Ø analyse des correspondances
L'analyse des correspondances utilisant les données d'un tableau de contingence montre les relations relatives entre deux groupes différents de variables. Un tableau de contingence est un tableau 2D avec des lignes et des colonnes comme groupes de variables..
conclusion
J'espère que vous avez maintenant une meilleure compréhension des différentes techniques utilisées dans l'analyse univariée., bivarié et multivarié.
Les médias présentés dans cet article ne sont pas la propriété de DataPeaker et sont utilisés à la discrétion de l'auteur.
En rapport
Articles Similaires:
- Maîtrise de l'analyse exploratoire des données (AED) pour les passionnés de data science
- Analyse exploratoire des données à l'aide de techniques de visualisation de données.
- Analytique vs Analyse | Analyse de données vs analyse de données, ils sont similaires?
- Analyse des séries chronologiques | Quelle est la série temporelle? Analyse de séries temporelles en Python