Les concepts clés pour étudier votre jeu de données

Contenu

Cet article a été publié dans le cadre du Blogathon sur la science des données.

"Ne vous lancez pas dans le mannequinat. Premier, Comprendre et explorer vos données! “

Sur

C'est un conseil commun pour de nombreux scientifiques des données. Si votre jeu de données est désordonné, la construction de modèles ne vous aidera pas à résoudre votre problème. Ce qui va se passer est “poubelle à l'intérieur, ordures à l'extérieur”. Pour créer un puissant algorithme d'apprentissage automatique. Nous devons explorer et comprendre notre ensemble de données avant de définir une tâche prédictive et de la résoudre.

introduction

avant de continuer, les data scientists passent le plus clair de leur temps à explorer, nettoyer et préparer vos données pour la modélisation. Cela les aide à construire des modèles précis et à vérifier les hypothèses nécessaires pour ajuster les modèles..

Créez des visualisations de données significatives, prédire les tendances futures à partir des données.

Si vous comprenez bien la préparation des données, presque terminé 80% du travail.

Table des matières

  • Posez-vous les bonnes questions?
  • Analyser différents sous-ensembles de données
  • Explorez les tendances
  • FTrouvez vos angles morts
  • Enquêter sur les pourquoi

Posez les bonnes questions

Qu'il s'agisse de résultats d'enquêtes, des données de vente ou une campagne d'e-mails, vous avez collecté des données dans un but précis. Par extension, appliquer cette finalité aux questions que vous posez sur les données elles-mêmes. Commencer par quelques questions spécifiques peut garder votre enquête ciblée et vous permettre de voir la forêt à travers les arbres.. Une question comme “Comment sont mes revenus au cours de la dernière 3 ans?” Il est vague et permet l'exploration, mais aussi la confusion.

En échange, quelque chose comme “quel canal génère plus de revenus au cours de la dernière 3 ans” a une réponse plus claire. Les questions suivantes peuvent être: “Quel département génère le plus de revenus par an” O “les ventes de matériel d'escalade sont en hausse ou en baisse cette année?” Il est important de garder une question spécifique à l'esprit lors du démarrage de l'analyse des données pour fournir une certaine structure et éviter de trébucher sur des faux positifs.

66598un-7540058

Analyser différents sous-ensembles de données:

Il est plus facile de détecter les relations si vous analysez les données de différents sous-ensembles. Par exemple, segmentez vos données de revenus par canal comme le graphique ci-dessus, ou par département. Expérimentez avec les sous-ensembles et les variables qui ont le plus de sens pour les questions que vous avez développées à l'étape précédente..

Cette mise en page vise à vous permettre de rester dans le train de vos pensées et de passer en douceur d'une question à une autre., sans trébucher sur le format ou les équations. Il peut également être utile d'utiliser ce qu'on appellerait un tableau croisé dynamique dans Excel. Dans notre exemple de détaillant d'équipement de plein air, vous pouvez passer d'une vue trimestrielle au chiffre d'affaires pour un trimestre de l'année simplement en sélectionnant dans un menu déroulant. Le graphique ci-dessous est un agrégat des revenus pour chaque trimestre entre 2010 Oui 2013.

74333deux-7673471

Explorez les tendances

Expérimentez avec vos variables de temps. Regarde le quart, le mois ou la semaine, tout ce qui a du sens en fonction de ce que vous recherchez. Parfois, ce qui manque est aussi important que ce qui est là. S'il y a des trous dans votre analyse de données, prenez note. Il peut être utile de prendre des notes tout au long de votre analyse., des rappels de ce que vous aimeriez rechercher ou discuter avec des collègues plus tard.

Jetez un œil à cette analyse trimestrielle des revenus du département. Ce n'est pas très utile car il est difficile de détecter des tendances.

69209trois-9997805

Ce graphique linéaire annuel permet de voir beaucoup plus facilement que l'escalade est le département qui connaît la croissance la plus rapide et que les ventes de course à pied ont diminué au cours des trois dernières années..

63951quatre-8815038

Trouvez vos angles morts

  • A vraiment été collecté
    pour la tâche qu'on vous demande de faire. Et on vous demande de faire le
    les données valident un résultat déjà décidé.
  • La plupart des organisations ne pensent pas scientifiquement. Ils ne créent pas d'hypothèse et décident ensuite des données qu'ils doivent collecter pour la valider. Ils choisissent un résultat puis ajustent les données.
  • Souvent, les données proviennent de quelque chose de complètement différent, souvent comme sous-produit d'un processus commercial. Alors quelqu'un a la brillante idée “Nous pourrions utiliser cela pour travailler”
  • En analysant le graphique suivant, le graphique illustre des informations sur les angles morts dans un ensemble de données. Les données cachées seront l'un des inconvénients pour obtenir une solution. En général, trouver des valeurs aberrantes sera une solution.

  • Correction des valeurs aberrantes basée sur le paramètre R. Le graphique de gauche montre les données d'origine avec les valeurs aberrantes détectées. Le graphique du milieu utilise une valeur de bruit de zéro pour placer ou corriger l'emplacement des valeurs aberrantes dans le modèle linéaire. Le graphique de droite place la valeur aberrante près du modèle linéaire à une distance basée sur une valeur positive pour R (R = 0.5).
  • 87583six-4177881

Enquêter sur les pourquoi:

69565cinq-5701755

L'analyse des données est un processus continu et la meilleure façon de l'aborder est d'essayer de faire de moins en moins d'erreurs. Vous n'aurez probablement jamais toutes les données que vous souhaitez ou dont vous avez besoin pour répondre à toutes les questions sur votre entreprise., mais au moins tu peux avancer vers plus de réponses et de meilleures décisions. Cette boucle de rétroaction continue (demander, analyser, enquêter, répéter) ça peut s'améliorer, mais ce ne sera jamais parfait.

Remarques finales

Comprendre et interpréter les données est une étape très importante du machine learning. Dans cet article de blog, nous essayons de fournir un aperçu des techniques qui peuvent vous aider à mieux comprendre vos données

Selon la taille, dimension et type de vos données, vous pouvez choisir l'algorithme. Par exemple, quand vous avez de grosses données brutes, vous pouvez utiliser des exemples représentatifs au lieu d'échantillons aléatoires. Si vous avez un grand ensemble de données, vous pouvez également trouver les dimensions importantes pour comprendre des échantillons représentatifs.

Différentes techniques peuvent vous donner des informations différentes sur vos données. C'est votre travail d'utiliser les outils pour résoudre le mystère en tant que détective..

Abonnez-vous à notre newsletter

Nous ne vous enverrons pas de courrier SPAM. Nous le détestons autant que vous.