Glossaire des termes courants d'apprentissage automatique, statistiques et science des données

Mot

La description

Apprentissage automatique L'apprentissage automatique fait référence aux techniques impliquées dans la gestion du Big Data de la manière la plus intelligente (par le développement d'algorithmes) pour des informations exploitables. Dans ces techniques, nous attendons des algorithmes qu'ils apprennent par eux-mêmes sans être explicitement programmés. Cornac Mahout est un projet Apache open source utilisé pour créer des algorithmes d'apprentissage automatique évolutifs. Mettre en œuvre des techniques d'apprentissage automatique populaires en tant que recommandation, classification et regroupement.

Caractéristiques de Mahout:

Mahout propose un framework pour effectuer des tâches d'exploration de données sur de gros volumes de données

Mahout permet aux applications d'analyser efficacement et rapidement de grands ensembles de données

Il offre également des capacités de fonction de remise en forme distribuées pour une programmation évolutive..

Inclut plusieurs implémentations de cluster compatibles MapReduce, como k-signifie, k-moyenne floue, Dirichlet y Décalage moyen

Petite carte Hadoop MapReduce est un framework logiciel pour écrire facilement des applications qui traitent de grandes quantités de données (ensembles de données de plusieurs téraoctets) en parallèle dans de grands groupes (des centaines de nœuds) du matériel de base de manière fiable et tolérante aux pannes.

Un framework MapReduce est généralement composé de trois opérations:

Carte: chaque nœud de travail applique la fonction map aux données locales et écrit la sortie dans le stockage temporaire. Un nœud maître garantit qu'une seule copie des données d'entrée redondantes est traitée.
Mélanger: Les nœuds de travail redistribuent les données en fonction des clés de sortie (produit par la fonction map), de sorte que toutes les données appartenant à une clé se trouvent dans le même nœud de travail.
Réduire: Les nœuds de travail traitent désormais chaque groupe de données de sortie, par clé, en parallèle.

Pour en savoir plus sur MapReduce, visite ici.

Analyse du panier de marché Analyse du panier de marché (aussi appelé MBA) est une technique largement utilisée par les spécialistes du marketing pour identifier la meilleure combinaison possible de produits ou de services que les clients achètent souvent. C'est ce qu'on appelle aussi l'analyse d'association de produits.. L'analyse d'association est réalisée principalement sur la base d'un algorithme appelé “Algorithme a priori”. Le résultat de cette analyse est appelé règles d'association. Les spécialistes du marketing utilisent ces règles pour élaborer leurs recommandations..

Lorsque deux produits ou plus sont achetés, l'analyse du panier est effectuée pour vérifier si l'achat d'un produit augmente la probabilité d'acheter d'autres produits. Cette connaissance est un outil permettant aux spécialistes du marketing de regrouper des produits ou de concevoir une stratégie de vente croisée de produits à un client..

Modélisation du mix de marché La modélisation du mix de marché est une approche analytique qui utilise des informations historiques comme point de vente pour quantifier l'impact de certains des composants sur les ventes..

Supposons que la vente totale est 100 $, ce total peut être divisé en sous-composantes, En d'autres termes, 60 $ vente de base, 20 $ le prix, 18 $ peut être la distribution et 2 $ peut être dû à des activités promotionnelles. Ces nombres peuvent être obtenus en utilisant diverses méthodes logiques. Chaque méthode peut conduire à une rupture différente. Pour cela, il est très important de standardiser la procédure de ventilation des ventes totales de ces composants. Cette technique formelle est formellement connue sous le nom de MMM ou Market Mix Modeling..

Estimation du maximum de vraisemblance C'est une méthode pour trouver les valeurs des paramètres qui rendent la probabilité maximale. Les valeurs résultantes sont appelées estimations du maximum de vraisemblance. (MLE). Vouloir dire Pour un ensemble de données, on dit que la moyenne est la valeur moyenne de tous les nombres. Peut parfois être utilisé comme représentation de toutes les données.

Par exemple, si vous avez les notes des élèves d'une classe et que vous leur demandez si la classe est performante. Il ne serait pas pertinent de dire les notes de chaque élève, en échange, peux-tu trouver la moyenne de la classe, qui sera un représentant de la performance de la classe.
Pour trouver la moyenne, additionner tous les nombres puis diviser par le nombre d'articles dans l'ensemble.

Par exemple, si les nombres sont 1, 2, 3, 4, 5, 6, 7, 8, 8, alors la moyenne serait 44/9 = 4,89.

Médian La médiane d'un ensemble de nombres est généralement la valeur moyenne. Lorsque les nombres totaux de l'ensemble sont pairs, la médiane sera la moyenne des deux valeurs moyennes. La médiane est utilisée pour mesurer la tendance centrale.

Pour trouver la médiane d'un ensemble de nombres, suivez les étapes ci-dessous:

Rangez les nombres dans l'ordre croissant ou décroissant
Trouver la valeur moyenne, qui sera n / 2 (où n sont les nombres de l'ensemble)

FOIS Un système d'information de gestion (QUEL) est un système informatique composé de matériel et de logiciels qui sert de colonne vertébrale aux opérations d'une organisation. Un SIG collecte des données à partir de plusieurs systèmes en ligne, analyse les informations et rapporte les données pour aider à la prise de décision de gestion.

Objectifs du SIM:

Pour piloter la prise de décision, fournir des données précises et à jour sur une gamme d'actifs organisationnels.
Corréler plusieurs points de données pour concevoir des stratégies pour piloter les opérations.

ML-as-a-Service (MLaaS) L'apprentissage automatique en tant que service (MLaaS) est une série de services qui fournissent des outils d'apprentissage automatique dans le cadre de services de cloud computing. Cela peut inclure des outils pour la visualisation des données, accréditation faciale, traitement du langage naturel, accréditation image, analyse prédictive et apprentissage en profondeur. Certains des meilleurs fournisseurs de ML-as-a-service sont:

Étude d'apprentissage machine Microsoft Azure
Apprentissage automatique AWS
Apprentissage automatique IBM Watson
Moteur d'apprentissage automatique Google Cloud
BigML

Façon Le mode est la valeur qui apparaît le plus fréquemment dans la population. C'est une métrique pour mesurer la tendance centrale, En d'autres termes, un moyen d'exprimer, en nombre (généralement) unique, informations importantes sur une variable aléatoire ou une population.

Le mode peut être calculé par les étapes suivantes:

Comptez le nombre de fois où chaque valeur apparaît
Prendre la valeur qui apparaît le plus

Comprenons avec un exemple:

Supposons que nous ayons un ensemble de données qui a 10 points de données, énumérés ci-dessous:

4,5,2,8,4,7,6,4,6,3

Alors maintenant, nous allons calculer le nombre de fois où chaque valeur est apparue.

Valeur	Raconter
2	1
3	1
4	3
5	1
6	2
7	1
8	1

On voit donc que la valeur 4 est celui qui se répète le plus, En d'autres termes, 3 fois. Ensuite, le mode de cet ensemble de données sera 4.

Sélection du modèle La sélection de modèle est la tâche de choisir un modèle statistique à partir d'un ensemble de modèles connus. Plusieurs méthodes qui peuvent être utilisées pour sélectionner le modèle sont:

L'analyse exploratoire des données
Méthodes scientifiques

Certains des critères de choix du modèle peuvent être:

Critères d'information d'Akaike (AIC)
R ajusté2
Critère d'information bayésien (BIC)
Test du rapport de vraisemblance

Simulation de Monte-Carlo L'idée derrière la simulation Monte Carlo est d'utiliser des échantillons aléatoires de paramètres ou d'entrées pour explorer le comportement d'une procédure complexe. Les simulations de Monte Carlo échantillonnent une distribution de probabilité pour chaque variable afin de produire des centaines ou des centaines de résultats possibles. Les résultats sont analysés pour obtenir des probabilités que différents résultats se produisent. Classement multiple Les problèmes qui ont plus d'une classe dans la variable cible sont appelés problèmes de classification à classes multiples..

Par exemple, si le but est de prédire la qualité d'un produit, ce qui peut être excellent, bon, moyenne, ordinaire, peu. Pour ce cas, la variable a 5 cours, c'est donc un obstacle à la classification des 5 cours.

Analyse multivariable L'analyse multivariée est une procédure de comparaison et d'analyse de la dépendance de plusieurs variables les unes par rapport aux autres..

Par exemple, on peut faire une analyse bivariée de la combinaison de deux caractéristiques continues et trouver un lien entre elles.

Régression multivariée Multivarié, comme le mot le suggère, fait référence à « plusieurs variables dépendantes ». Un modèle de régression conçu pour traiter plusieurs variables dépendantes est appelé modèle de régression multivariée..

Considérez l'exemple: pour un ensemble donné de détails sur les intérêts d'un élève, note précédente par sujet, etc., voulez prédire GPA pour tous les semestres (GPA1, GPA2,….). Cet énoncé du problème peut être résolu par une régression multivariée, puisque nous avons plus d'une variable dépendante.