Shared internal storage on Hadoop architectures

Contents

Las arquitecturas Hadoop son la base de un proyecto de software open source que admite aplicaciones distribuidas, diseñado para ser dependable (no data loss) y escalable, capaz de almacenar grandes cantidades de datos, por lo que es muy útil para afrontar los retos del Big Data. El almacenamiento interno compartido es sinónimo de Resultados satisfactorios a bajo costo.

istock-634577262-9323708

Photo credits: Anna_leni

Apache Hadoop hace frente con éxito a las complejidades de alto volumen, speed and variety of data, lo que le posibilita cargar, analizar y almacenar petabytes de información a través del análisis por lotes y el procesamiento distribuido.

Para introducir la cuestión de almacenamiento interno compartido en arquitecturas Hadoop, tenemos que centrarnos en el núcleo o corazón de este marco diseñado para operar en la clave de Big Data. Su composición consta de:

  • Una implementación Capa de mapa / disminución o procesamiento: Small map procesa grandes cantidades de información de una manera fácil de utilizar, Thanks to the almacenamiento interno compartido, muy fácil de utilizar, dado que la complejidad está oculta a los usuarios.
  • A capa de almacenamiento HDFS (Sistema de archivos distribuidos de Hadoop): it's a Distributed File System escrito en Java creado por Doug Cutting, que constituye la capa de almacenamiento en un cluster the Hadoop.

Almacenamiento interno compartido, transparente para el usuario

El modelo de programación paralela de datos Map / Reduce está, indeed, diseñado de tal manera que la complejidad de la distribución and fault tolerance permanecer oculto. Este procedimiento en paralelo que no vemos, transparente con Hadoop, le da al sistema una gran accesibilidad y facilidad de uso.

La tecnología de procesamiento paralelo que Map / Reduce sigue la máxima del “divide y conquistaras”. Su lógica de procesamiento se despliega en las funciones del mapa y se reduce. On one side, mapea el problema en partes más pequeñas, dividiendo los datos entre los nodos, con lo que cada máquina procesa su parte y, for another, la etapa Reducir suma los valores parciales de cada clave para obtener el resultado final. .

almacenamiento_interno_compartido_arquitecturas_hadoop-4643288

Photo credits: anankkml / FreeDigitalPhotos.net

A) And, todas las máquinas procesan la información simultáneamente, por medio de la tecnología de procesamiento paralelo que se almacena en cada una de las computadoras en la etapa Mapa, hasta que el componente Reducir consolide el resultado, together with that other piece of data for which they also maintain provide reliability to the system.

With Hadoop, This entire procedure runs in parallel without the user's involvement, since they only need to worry about saving the file to the Hadoop cluster. Therefore, Thanks to procesamiento en paralelo, that shared internal storage that Hadoop automatically manages, it is possible to process large volumes of data more quickly.

Speed, fault tolerance (each machine processes a part and has information about another), Easy to use, its rich ecosystem and, of course, its low cost, have greatly expanded the use of Hadoop architectures, democratize big data processing to obtain valuable insights.

Do you enjoy the advantages of shared internal storage in your company?

Related Post:

(function(d, s, id) {
var js, fjs = d.getElementsByTagName(s)[0];
if (d.getElementById(id)) return;
js = d.createElement(s); js.id = id;
js.src = “//connect.facebook.net/es_ES/all.js#xfbml=1&status=0”;
fjs.parentNode.insertBefore(js, fjs);
}(document, ‘script’, 'facebook-jssdk'));

Subscribe to our Newsletter

We will not send you SPAM mail. We hate it as much as you.

Datapeaker