Introduction à l'exploration de données | Applications d'exploration de données

Contenu

Cet article a été publié dans le cadre du Blogathon sur la science des données

Vue d'ensemble

  1. Apprendre le concept de base de l'exploration de données
  2. Comprendre les applications de l'exploration de données

Conditions préalables

  • Compréhension de base de Python
  • Connaissance de base de la base de données

Bienvenue Les gars!

Ici, je vais vous donner une brève compréhension des bases du Data Mining. Sabemos que en todas partes hay datos en varios formatos que se almacenarán en una base de données. Selon l'échelle de données, nous pouvons choisir une base de données appropriée. Ensuite, il existe des bases de données populaires que nous connaissons, en tant que PostgreSQL, NoSQL, MongoDB, Microsoft SQL Server et bien d'autres.

Dans cet article, vous vous ferez une idée du data mining.

Alors continuons …

Qu'est-ce que l'exploration de données?

“Traitement de l'information”, qui extrait les données. En mots simples, se définit comme trouver des informations cachées (information) de la base de données, extraire des modèles de données.

Il existe différents algorithmes pour différentes tâches. La fonction de ces algorithmes est d'ajuster le modèle. Ces algorithmes identifient les caractéristiques des données. Il y a 2 types de modèles.

1) Modèle prédictif

2) Modèle descriptif

94681les-tâches-et-modèles-d'exploration-de-données-parmi-les-modèles-prédictifs-la-classification-est-probablement-la-meilleure-2805991

Tâches d'exploration de données de base

Dans cette section, nous allons voir certaines des fonctions / tâches minières.

1) Classification

Este término viene bajo enseignement supervisé. Les algorithmes de classification nécessitent que les classes soient définies en fonction de variables. Les caractéristiques des données définissent à quelle classe elles appartiennent. La reconnaissance des formes est l'un des types de problèmes de classification dans lesquels l'entrée (Modèle) est classé en différentes classes en fonction de leur similarité de classe définie.

2) Prédiction

Dans la vie réelle, on voit souvent les choses prédire / valeurs futures / ou autrement basé sur des données passées et des données présentes. La prédiction est aussi un type de tâche de classification. Selon le type de candidature, par exemple, prédire les crues dont les variables dépendantes sont le niveau d'eau de la rivière, son humidité, échelle de pluie, etc. sont les attributs.

3) Régression

43720lr-1000361

La régression est une technique statistique utilisée pour déterminer la relation entre les variables (X) et les variables dépendantes (Oui). Il existe peu de types de régression comme linéaire, Logistique, etc. La régression linéaire est utilisée sur des valeurs continues (0,1,1,5,… .et ainsi de suite) et la régression logistique est utilisée lorsqu'il y a une possibilité de seulement deux événements au fur et à mesure qu'ils se produisent / échec, vrai / faux, Oui / non, etc.

4) Analyse des séries chronologiques

72294temps20séries20graphe2-3364143

Dans l'analyse des séries chronologiques, ongle variable cambia su valor según el tiempo. Cela signifie que l'analyse passe par des modèles d'identification des données sur une période de temps. Peut être une variation saisonnière, variation irrégulière, tendance séculaire et fluctuation cyclique. Par exemple, pluie annuelle, prix du sac, etc.

5) Regroupement

71113data_after_clustering-3988446

Le regroupement est le même que le classement, c'est-à-dire, regrouper les données. Le clustering est inclus dans l'apprentissage automatique non supervisé. Il s'agit d'un processus de division des données en groupes en fonction de types de données similaires.

6) résumé

Le résumé n'est rien de plus qu'une caractérisation ou une généralisation. Récupérer des informations significatives à partir des données. Il offre également un résumé des variables numériques en tant que moyenne, mode, médian, etc.

7) Règles d'association

C'est la tâche principale du Data Mining. Aide à trouver des modèles appropriés et des connaissances significatives à partir de la base de données. La règle d'association est un modèle qui extrait des types d'associations à partir de données. Par exemple, Analyse du panier de marché où les règles d'association sont appliquées à la base de données pour savoir quels articles le client achète ensemble.

42241mba-2815271

8) Découverte de séquence

Aussi appelée analyse séquentielle. Il est utilisé pour découvrir ou trouver le modèle séquentiel dans les données.

Le modèle séquentiel signifie le modèle qui est purement basé sur une séquence de temps. Ces modèles sont similaires aux règles d'association trouvées dans la base de données ou les événements sont liés mais leur relation est basée uniquement sur le « Temps ».

Jusque là, nous avons vu toutes les fonctions ou tâches de base du Data Mining. Passons à en savoir plus sur l'exploration de données …

Exploration de données VS KDD (découverte de connaissances dans la base de données)

Traitement de l'information: Processus d'utilisation d'algorithmes pour extraire des informations et des modèles significatifs dérivés du processus KDD. C'est une étape impliquée dans KDD.

KDD: Il s'agit d'un processus important d'identification de modèles et d'informations significatives dans les données.. L'entrée donnée à ce processus sont les données et la sortie fournit des informations utiles à partir des données.

Le processus KDD consiste à 5 Pas:

1) Sélection: Besoin d'obtenir des données de diverses sources de données, base de données.

2) Prétraitement: Ce processus de nettoyage des données en termes de mauvaises données, valeurs manquantes, données erronées.

3) Transformation: Les données provenant de diverses sources doivent être converties et encodées dans un format pour le prétraitement.

4) Exploration de données: Dans ce processus, des algorithmes sont appliqués aux données transformées pour obtenir la sortie ou les résultats souhaités.

5) Interprétation / évaluation: Vous devez faire des visualisations pour présenter les résultats de l'exploration de données qui sont très importants.

24712kdd-2957240

Applications d'exploration de données

1) Commerce électronique

Le e-commerce est une de ses applications dans la vraie vie. Les entreprises de commerce électronique sont comme Amazon, Flipkart, Myntra, etc. Ils utilisent des techniques d'exploration de données pour voir la fonctionnalité de chaque produit de telle sorte que "quel produit est le plus vu par le client aussi ce que l'autre a aimé".

2) vendre au détail

C'est une autre application d'exploration de données du marché de détail. Les détaillants trouvent le modèle de “fraîcheur, la fréquence, monétaire (en termes de monnaie)”. Les détaillants suivent les ventes et les transactions de produits.

3) Éducation

L'éducation est un domaine émergent et tendance aujourd'hui. Il s'agit de la découverte de connaissances à partir de données éducatives. L'objectif principal de cette application est d'étudier ou d'identifier le comportement de l'élève en termes d'apprentissage futur, étudier les effets, connaissances d'apprentissage avancées, etc. Ces techniques d'exploration de données sont utilisées par les institutions pour prendre des décisions précises et également prédire des résultats appropriés..

Outils d'exploration de données

– COUTEAUX

-WEKA

-ORANGE

Algorithmes d'exploration de données

  • Regroupement des bas K
  • Machines à vecteurs de soutien
  • A priori
  • KNN
  • Bayes ingénieux
  • PANIER et bien d'autres …

Ce sont des algorithmes.

* Maintenant, je vais vous donner des informations sur les bibliothèques requises ci-dessous.

– A priori:

d'apyori import apriori

– Regroupement des bas K:

from kneed import KneeLocator
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
from sklearn.preprocessing import StandardScaler

– Machines à vecteurs de soutien:

de sklearn importer svm

-Naïf Bayes:

de sklearn.naive_bayes importer GaussianNB

-AUTO:

depuis sklearn.tree importer DecisionTreeRegressor

-KNN:

from sklearn.neighbors import KNeighborsClassifier

Voici donc quelques bibliothèques qui doivent être installées pendant l'exécution de l'algorithme.

conclusion

j'espère que vous avez aimé mon article. Si vous avez une requête, vous pouvez laisser des commentaires ci-dessous. Merci!

Les médias présentés dans cet article ne sont pas la propriété de DataPeaker et sont utilisés à la discrétion de l'auteur.

Abonnez-vous à notre newsletter

Nous ne vous enverrons pas de courrier SPAM. Nous le détestons autant que vous.