Armazenamento interno compartilhado em arquiteturas Hadoop

Conteúdo

As arquiteturas Hadoop são a base de um projeto de software open source que suporta aplicações distribuídas, concebido para ser fiável (sem perda de dados) e escalável, capaz de armazenar grandes quantidades de dados, pelo que é muito útil para enfrentar os desafios do Big Data. O armazenamento interno partilhado é sinónimo de Resultados satisfatórios a baixo custo.

istock-634577262-9323708

Créditos fotográficos: Anna_leni

O Apache Hadoop enfrenta com sucesso as complexidades de alto volume, velocidade e variedade de dados, o que lhe permite carregar, analisar e armazenar petabytes de informação através da análise por lotes e do processamento distribuído.

Para introduzir a questão de armazenamento interno partilhado em arquiteturas Hadoop, temos de nos concentrar no núcleo ou coração deste quadro concebido para operar na chave do Big Data. A sua composição consiste em:

  • Uma implementação Camada de mapa / redução ou processamento: Mapa pequeno processa grandes quantidades de informação de uma forma fácil de utilizar, Graças ao armazenamento interno partilhado, muito fácil de utilizar, uma vez que a complexidade está oculta aos utilizadores.
  • UMA camada de armazenamento HDFS (Sistema de ficheiros distribuídos do Hadoop): é um Sistema de arquivos distribuído escrito em Java criado por Doug Cutting, que constitui a camada de armazenamento de um cacho o Hadoop.

Armazenamento interno partilhado, transparente para o utilizador

O modelo de programação paralela de dados Map / Reduce está, realmente, concebido de tal forma que a complexidade da distribuição e a tolerância a falhas permanece oculta. Este procedimiento en paralelo que no vemos, transparente con Hadoop, le da al sistema una gran accesibilidad y facilidad de uso.

La tecnología de procesamiento paralelo que Map / Reduce sigue la máxima del “divide y conquistaras”. Su lógica de procesamiento se despliega en las funciones del mapa y se reduce. Por um lado, mapea el problema en partes más pequeñas, dividiendo los datos entre los nodos, con lo que cada máquina procesa su parte y, por outro, la etapa Reducir suma los valores parciales de cada clave para obtener el resultado final. .

almacenamiento_interno_compartido_arquiteturas_hadoop-4643288

créditos fotográficos: anankkml / FreeDigitalPhotos.net

UMA) E, todas las máquinas procesan la información simultáneamente, por medio de la tecnología de procesamiento paralelo que se almacena en cada una de las computadoras en la etapa Mapa, hasta que el componente Reducir consolide el resultado, junto con ese otro dato para el que además guardan proporcionar confiança al sistema.

Com Hadoop, Todo este procedimiento en paralelo se ejecuta de forma ajena al usuario, dado que solo tiene que preocuparse de guardar el archivo en el cluster Hadoop. Por tanto, Gracias al Processamento paralelo, a ese almacenamiento interno compartido del que Hadoop se encarga automáticamente, es factible procesar grandes volúmenes de datos con mayor rapidez.

Velocidade, tolerancia a fallos (cada máquina procesa una parte y tiene información sobre otra), facilidad de uso, su rico ecosistema y, desde já, su bajo costo, han expandido enormemente el uso de arquiteturas Hadoop, democratizar el tratamiento de big data para obtener información valiosa.

¿Disfruta de las ventajas del almacenamiento interno compartido en su compañía?

Postagem Relacionada:

(função(d, s, Eu iria) {
var js, fjs = d.getElementsByTagName(s)[0];
E se (d.getElementById(Eu iria)) Retorna;
js = d.createElement(s); js.id = id;
js.src = “//connect.facebook.net/es_ES/all.js#xfbml=1&status = 0”;
fjs.parentNode.insertBefore(js, fjs);
}(documento, 'roteiro', 'facebook-jssdk'));

Assine a nossa newsletter

Nós não enviaremos SPAM para você. Nós odiamos isso tanto quanto você.

Datapeaker