Mot
La description
Caractéristiques de Mahout:
- Mahout propose un framework pour effectuer des tâches d'exploration de données sur de gros volumes de données
- Mahout permet aux applications d'analyser efficacement et rapidement de grands ensembles de données
- Il offre également des capacités de fonction de remise en forme distribuées pour une programmation évolutive..
- Inclut plusieurs implémentations de cluster compatibles MapReduce, como k-signifie, k-moyenne floue, Dirichlet y Décalage moyen
Un framework MapReduce est généralement composé de trois opérations:
- Carte: chaque nœud de travail applique la fonction map aux données locales et écrit la sortie dans le stockage temporaire. Un nœud maître garantit qu'une seule copie des données d'entrée redondantes est traitée.
- Mélanger: Les nœuds de travail redistribuent les données en fonction des clés de sortie (produit par la fonction map), de sorte que toutes les données appartenant à une clé se trouvent dans le même nœud de travail.
- Réduire: Les nœuds de travail traitent désormais chaque groupe de données de sortie, par clé, en parallèle.
Pour en savoir plus sur MapReduce, visite ici.
Lorsque deux produits ou plus sont achetés, l'analyse du panier est effectuée pour vérifier si l'achat d'un produit augmente la probabilité d'acheter d'autres produits. Cette connaissance est un outil permettant aux spécialistes du marketing de regrouper des produits ou de concevoir une stratégie de vente croisée de produits à un client..
Supposons que la vente totale est 100 $, ce total peut être divisé en sous-composantes, En d'autres termes, 60 $ vente de base, 20 $ le prix, 18 $ peut être la distribution et 2 $ peut être dû à des activités promotionnelles. Ces nombres peuvent être obtenus en utilisant diverses méthodes logiques. Chaque méthode peut conduire à une rupture différente. Pour cela, il est très important de standardiser la procédure de ventilation des ventes totales de ces composants. Cette technique formelle est formellement connue sous le nom de MMM ou Market Mix Modeling..
Par exemple, si vous avez les notes des élèves d'une classe et que vous leur demandez si la classe est performante. Il ne serait pas pertinent de dire les notes de chaque élève, en échange, peux-tu trouver la moyenne de la classe, qui sera un représentant de la performance de la classe.
Pour trouver la moyenne, additionner tous les nombres puis diviser par le nombre d'articles dans l'ensemble.
Par exemple, si les nombres sont 1, 2, 3, 4, 5, 6, 7, 8, 8, alors la moyenne serait 44/9 = 4,89.
Pour trouver la médiane d'un ensemble de nombres, suivez les étapes ci-dessous:
- Rangez les nombres dans l'ordre croissant ou décroissant
- Trouver la valeur moyenne, qui sera n / 2 (où n sont les nombres de l'ensemble)
Objectifs du SIM:
- Pour piloter la prise de décision, fournir des données précises et à jour sur une gamme d'actifs organisationnels.
- Corréler plusieurs points de données pour concevoir des stratégies pour piloter les opérations.
- Étude d'apprentissage machine Microsoft Azure
- Apprentissage automatique AWS
- Apprentissage automatique IBM Watson
- Moteur d'apprentissage automatique Google Cloud
- BigML
Le mode peut être calculé par les étapes suivantes:
- Comptez le nombre de fois où chaque valeur apparaît
- Prendre la valeur qui apparaît le plus
Comprenons avec un exemple:
Supposons que nous ayons un ensemble de données qui a 10 points de données, énumérés ci-dessous:
4,5,2,8,4,7,6,4,6,3
Alors maintenant, nous allons calculer le nombre de fois où chaque valeur est apparue.
Valeur | Raconter |
2 | 1 |
3 | 1 |
4 | 3 |
5 | 1 |
6 | 2 |
7 | 1 |
8 | 1 |
On voit donc que la valeur 4 est celui qui se répète le plus, En d'autres termes, 3 fois. Ensuite, le mode de cet ensemble de données sera 4.
- L'analyse exploratoire des données
- Méthodes scientifiques
Certains des critères de choix du modèle peuvent être:
- Critères d'information d'Akaike (AIC)
- R ajusté2
- Critère d'information bayésien (BIC)
- Test du rapport de vraisemblance
Par exemple, si le but est de prédire la qualité d'un produit, ce qui peut être excellent, bon, moyenne, ordinaire, peu. Pour ce cas, la variable a 5 cours, c'est donc un obstacle à la classification des 5 cours.
Par exemple, on peut faire une analyse bivariée de la combinaison de deux caractéristiques continues et trouver un lien entre elles.
Considérez l'exemple: pour un ensemble donné de détails sur les intérêts d'un élève, note précédente par sujet, etc., voulez prédire GPA pour tous les semestres (GPA1, GPA2,….). Cet énoncé du problème peut être résolu par une régression multivariée, puisque nous avons plus d'une variable dépendante.