Almacenamiento interno compartido en arquitecturas Hadoop

Contenidos

Las arquitecturas Hadoop son la base de un proyecto de software open source que admite aplicaciones distribuidas, diseñado para ser confiable (sin pérdida de datos) y escalable, capaz de almacenar grandes cantidades de datos, por lo que es muy útil para afrontar los retos del Big Data. El almacenamiento interno compartido es sinónimo de Resultados satisfactorios a bajo costo.

istock-634577262-9323708

Créditos fotográficos: Anna_leni

Apache Hadoop hace frente con éxito a las complejidades de alto volumen, velocidad y variedad de datos, lo que le posibilita cargar, analizar y almacenar petabytes de información a través del análisis por lotes y el procesamiento distribuido.

Para introducir la cuestión de almacenamiento interno compartido en arquitecturas Hadoop, tenemos que centrarnos en el núcleo o corazón de este marco diseñado para operar en la clave de Big Data. Su composición consta de:

  • Una implementación Capa de mapa / disminución o procesamiento: Mapa reducido procesa grandes cantidades de información de una manera fácil de utilizar, gracias a la almacenamiento interno compartido, muy fácil de utilizar, dado que la complejidad está oculta a los usuarios.
  • A capa de almacenamiento HDFS (Sistema de archivos distribuidos de Hadoop): es un sistema de archivos distribuido escrito en Java creado por Doug Cutting, que constituye la capa de almacenamiento en un clúster de Hadoop.

Almacenamiento interno compartido, transparente para el usuario

El modelo de programación paralela de datos Map / Reduce está, en efecto, diseñado de tal manera que la complejidad de la distribución y tolerancia a fallas permanecer oculto. Este procedimiento en paralelo que no vemos, transparente con Hadoop, le da al sistema una gran accesibilidad y facilidad de uso.

La tecnología de procesamiento paralelo que Map / Reduce sigue la máxima del «divide y conquistaras». Su lógica de procesamiento se despliega en las funciones del mapa y se reduce. Por una parte, mapea el problema en partes más pequeñas, dividiendo los datos entre los nodos, con lo que cada máquina procesa su parte y, por otro, la etapa Reducir suma los valores parciales de cada clave para obtener el resultado final. .

almacenamiento_interno_compartido_arquitecturas_hadoop-4643288

Créditos de las fotos: anankkml / FreeDigitalPhotos.net

A) Si, todas las máquinas procesan la información simultáneamente, por medio de la tecnología de procesamiento paralelo que se almacena en cada una de las computadoras en la etapa Mapa, hasta que el componente Reducir consolide el resultado, junto con ese otro dato para el que además guardan proporcionar confiabilidad al sistema.

Con Hadoop, Todo este procedimiento en paralelo se ejecuta de forma ajena al usuario, dado que solo tiene que preocuparse de guardar el archivo en el cluster Hadoop. Por tanto, Gracias al procesamiento en paralelo, a ese almacenamiento interno compartido del que Hadoop se encarga automáticamente, es factible procesar grandes volúmenes de datos con mayor rapidez.

Velocidad, tolerancia a fallos (cada máquina procesa una parte y tiene información sobre otra), facilidad de uso, su rico ecosistema y, desde luego, su bajo costo, han expandido enormemente el uso de arquitecturas Hadoop, democratizar el tratamiento de big data para obtener información valiosa.

¿Disfruta de las ventajas del almacenamiento interno compartido en su compañía?

Publicación relacionada:

(function(d, s, id) {
var js, fjs = d.getElementsByTagName(s)[0];
if (d.getElementById(id)) return;
js = d.createElement(s); js.id = id;
js.src = «//connect.facebook.net/es_ES/all.js#xfbml=1&status=0»;
fjs.parentNode.insertBefore(js, fjs);
}(document, ‘script’, ‘facebook-jssdk’));

Suscribite a nuestro Newsletter

No te enviaremos correo SPAM. Lo odiamos tanto como tú.