Introduction à MapReduce | Technologie des mégadonnées

Contenu

Petite carte est un modèle de programmation pour traiter de grands ensembles de données avec un, distribué algorithme dans un cluster (la source: Wikipédia). Map Reduce lorsqu'il est combiné avec HDFS peut être utilisé pour gérer le Big Data. Les principes fondamentaux de ce système HDFS-MapReduce, qui est communément appelé Hadoop, ont été discutés dans notre post précédent.

L’unité d’information de base utilisée dans CarteRéduire C’est un couple (mot de passe, valeur). Tous les types de données structurés et non structurés doivent être traduits dans cette unité de base, avant de fournir les données au modèle MapReduce. Comme le nom le suggère, le modèle MapReduce se compose de deux routines distinctes, a savoir, fonction de carte et fonction de diminution. Cet article vous aidera à comprendre la fonctionnalité étape par étape du modèle Map-Reduce. Calcul d'une entrée (En d'autres termes, dans un ensemble de paires) dans le modèle MapReduce, il se déroule en trois étapes:

Petite carte

Paso 1: le stade de la carte

Paso 2: l'étape de jeu aléatoire

Paso 3: la phase de déclin.

Sémantiquement, les phases map et shuffle distribuent les données, et l'étage de diminution effectue le calcul. Dans cet article, nous analyserons en détail chacune de ces étapes.

[stextbox id="section"] L'étape de la carte [/stextbox]

Logique MapReduce, contrairement aux autres trames de données, ne se limite pas aux ensembles de données structurées. Il a également une large capacité de traitement des données non structurées. L'étape de la carte est l'étape critique qui rend possible. Cartographe Structurez les données non structurées. Par exemple, si je veux compter le nombre de photos sur mon ordinateur portable par emplacement (ville), où a été prise la photo, J'ai besoin d'analyser des données non structurées. L'allocateur crée des paires (mot de passe, valeur) à partir de cet ensemble de données. Pour ce cas, la clé sera l'emplacement et la valeur sera la photographie. Une fois que le cédant a terminé ses devoirs, nous avons une structure pour l'ensemble des données.

Au stade de la carte, l'allocateur prend une seule paire (mot de passe, valeur) en entrée et produit un nombre quelconque de paires (mot de passe, valeur) comme une sortie. Il est essentiel de considérer l'opération de carte comme sans état, En d'autres termes, votre logique fonctionne sur une seule paire à la fois (même si en pratique plusieurs paires d'entrées sont envoyées au même allocator). Pour resumer, pour l'étape de la carte, l'utilisateur conçoit simplement une fonction de carte qui attribue une paire d'entrée (mot de passe, valeur) à n'importe quel nombre (y compris aucun) paires de sorties. La plupart du temps, l'étape de la carte est simplement utilisée pour spécifier l'emplacement souhaité de la valeur d'entrée en changeant sa clé.

[stextbox id="section"] L'étape du brassage [/stextbox]

L'étape shuffle est gérée automatiquement par le framework MapReduce, En d'autres termes, l'ingénieur n'a rien à faire à ce stade. Le système sous-jacent qui implémente MapReduce achemine toutes les valeurs associées à une clé individuelle vers le même réducteur.

[stextbox id="section"] L'étape Réduire [/stextbox]

En phase de déclin, le réducteur prend toutes les valeurs associées à une seule clé k et génère un nombre quelconque de paires (mot de passe, valeur). Cela met en évidence l'un des aspects séquentiels du calcul MapReduce: toutes les cartes doivent être finalisées avant que l'étape de déclin puisse commencer. Puisque le réducteur a accès à toutes les valeurs avec la même clé, peut effectuer des calculs séquentiels sur ces valeurs. Dans le pas décroissant, le parallélisme est exploité en observant que les réducteurs opérant sur des clés différentes peuvent être exécutés simultanément. Pour resumer, pour la phase de déclin, l'utilisateur conçoit une fonction qui prend en entrée une liste de valeurs associée à une seule clé et génère un nombre quelconque de paires. Souvent, les touches de sortie d'un réducteur sont les mêmes que la touche d'entrée (en réalité, sur le papier MapReduce original, la clé de sortie devrait égal à la clé d'entrée, mais Hadoop a assoupli cette restriction).

En général, un programme dans le paradigme MapReduce peut se composer de plusieurs tours (appelle généralement travaux) de différentes fonctions de carte et de diminution, fait séquentiellement l'un après l'autre.

[stextbox id="section"] Un exemple [/stextbox]

Prenons un exemple pour comprendre Map-Reduce en profondeur. Nous avons ce qui suit 3 phrases:

1. Le renard brun rapide

2. Le renard a mangé la souris

3. Comment maintenant vache brune

Notre objectif est de compter la fréquence de chaque mot dans toutes les phrases. Imaginez que chacune de ces phrases acquiert une grande quantité de mémoire et, pour cela, sont affectés à différents nœuds de données. Mapper prend en charge ces données non structurées et crée des paires clé-valeur. Pour ce cas, La clé est le mot et la valeur est le nombre de ce mot dans le texte disponible dans ce nœud de données. Par exemple, le 1er nœud Map génère 4 paires clé-valeur: (les, 1), (brun, 1), (Renard, 1), (rapide, 1). Les premiers 3 les paires clé-valeur vont au premier réducteur et la dernière valeur clé au deuxième réducteur.

mapreduce_eg

de la même manière, fonctions de carte 2 Oui 3 faire la carte des deux autres phrases. Lors du mélange, tous les mots similaires ont la même fin. Une fois les paires clé-valeur triées, la fonction de réduction opère sur ces données structurées pour générer un résumé.

[stextbox id="section"] Remarques finales: [/stextbox]

Prenons un exemple d'utilisation de la fonction Map-Reduce dans l'industrie:

• Dans le moteur de recherche Google:

– Création d'index pour la recherche Google
– Regroupement des articles pour Google Actualités
– Traduction automatique statistique

• En Yahoo !:

– Création d'index pour Yahoo! Chercher
– Détection de spam pour Yahoo! Courrier

• Sur Facebook:

– Traitement de l'information
– Optimisation des annonces
– Exemple de détection de spam

• En Amazon:

– Groupement de produits
– Traduction automatique statistique

La restriction de l'utilisation de la fonction Map-reduce est que l'utilisateur doit suivre un format logique. Cette logique consiste à générer des paires clé-valeur à l'aide de la fonction Map, puis à résumer à l'aide de la fonction Réduire.. Mais, par chance, la plupart des opérations de manipulation de données peuvent être dupées dans ce format. Dans le prochain article, nous prendrons quelques exemples comme comment faire une fusion d'ensembles de données, multiplication matricielle, transposition matricielle, etc. Usando Map-Reduce.

Le message a-t-il été utile? Partagez avec nous d'autres exemples pratiques de la fonction Map-Reduce. Faites-nous part de vos réflexions sur ce post dans la case ci-dessous..

Abonnez-vous à notre newsletter

Nous ne vous enverrons pas de courrier SPAM. Nous le détestons autant que vous.