HDFS et MapReduce, la base d'un Hadoop robuste

Contenu

hadoop_cluster-resized-600-2287879

Hadoop, le projet open source réussi supervisé par Apache Software Foundation, est une technologie bon marché qui permet de traiter de grandes quantités de données très diverses. Leur énormes avantages Par rapport aux systèmes distribués typiques, ne veut pas dire qu'il n'a pas d'inconvénients, tels que les problèmes de latence ou de streaming et de compatibilité des fichiers batch, mais cela ne compromet pas solidité de ce cadre.

Comme on le sait, Hadoop est un framework basé sur Java qui suit deux concepts simples: almacenar datos en el sistema de archivos distribuido le Hadoop (HDF) y procesarlos a través de CarteRéduire, le modèle de programmation pour le traitement de données distribué.

MapReduce et HDFS

MapReduce met à exécution la célèbre maxime romaine de Diviser pour régner (divise et tu vaincras), car il prend un problème complexe et le décompose en parties exploitables en parallèle. Cada una de estas piezas las envía a un nœud del cluster o servidor para trabajar con ellas en las fases de mapeo (Carte) Oui Réduire, dans ce cas, en prenant en entrée les listes obtenues dans le Carte et générer un ensemble de valeurs.

En outre, HDFS est un système de fichiers distribué qui stocke de grandes quantités de données et du matériel peu coûteux. La puissance est obtenue en joignant des nœuds au cluster, c'est-à-dire, équipement qui n'a pas de caractéristiques exceptionnelles, qui facilite le remplacement en cas de panne.

L'utilisation d'Hadoop avec des programmes comme HDFS ou MapReduce vous permet de travailler en parallèle avec le Big Data, offrant une solution intégrée et facilement évolutive. Dans “Hadoop. Le guide définitif”, Le célèbre livre de Tom White, Hadoop est défini comme linéairement évolutif (des nœuds peuvent être ajoutés au besoin), avec un haute disponibilité (les fichiers sont répliqués autant de fois que nécessaire, ce qui lui donne de la fiabilité) et tolérance aux pannes.

En réalité, lorsque vous travaillez avec MapReduce et HDFS dans Hadoop se evitan las fallas del grappe les serveurs, c'est-à-dire, le framework a le même comportement en cas de panne de serveur, donc les processus de calcul ne sont pas interrompus.

Cette tolérance aux pannes se traduit par une robustesse pour Hadoop ce qui s'ajoute à d'autres avantages incontestables tels que le faible coût de stockage, facilité d'utilisation, rendement, rapidité et flexibilité dans l'analyse des données structurées et non structurées.

En supposant qu'aucun système distribué ne puisse atteindre les maximums dans cohérence, disponibilité et tolérance aux pannes, selon le professeur Eric Brasseur, Hadoop est assez proche de ces trois exigences, on peut donc dire que c'est un système distribué avec de très hautes performances.

L'avenir de MapReduce

Le développement d'Hadoop continue de progresser avec nouvelles cotisations qui améliorent sa convivialité, comme cadre étincelle Apache, qui peut améliorer les performances de MapReduce, enrichir votre noyau. Bien que Spark puisse remplacer MapReduce ou même agir indépendamment, devenir le successeur de Hadoop, la vérité est qu'il a un grand potentiel de travailler avec eux pour améliorer des problèmes tels que la latence, analyse des données en temps réel et plus grande efficacité dans les requêtes qui demandent à plusieurs reprises des données. .

La polyvalence de Spark pourrait être considérée comme un danger pour l'avenir d'Hadoop, qui en son temps faisait la différence par rapport aux bases de données relationnelles (SGBDR) en tant que système de stockage et de traitement distribué. Pour l'instant, de nombreux analystes pensent qu'il est le principal candidat pour succéder à MapReduce ou Hadoop lui-même. Dans les deux cas, la vérité est que Spark est un framework autonome, mais sa conception lui permet de fonctionner avec le système de fichiers distribué Hadoop. En particulier, peut être exécuté directement sur HDFS, au sein de MapReduce ou pour travailler en parallèle avec MapReduce dans le même cluster.

Article similaire:

Databricks pour certifier les logiciels tiers pour Spark Apache

Hadoop oui ou non? Les questions pour vous aider à décider

API Hadoop 1.0.3: voyage nuage

Crédits photos: L'équipe de Cubie

(une fonction(ré, s, identifiant) {
var js, fjs = d.getElementsByTagName(s)[0];
si (d.getElementById(identifiant)) revenir;
js = d.createElement(s); js.id = identifiant;
js.src = “//connect.facebook.net/es_ES/all.js#xfbml=1&état=0”;
fjs.parentNode.insertAvant(js, fjs);
}(document, 'scénario', 'facebook-jssdk'));

Abonnez-vous à notre newsletter

Nous ne vous enverrons pas de courrier SPAM. Nous le détestons autant que vous.