Con el fin de reducir la latencia de las operaciones de procesamiento de big data y traer una serie de mejoras, Apache Software Foundation (ASF) ha anunciado la disponibilidad de la primera versión de Spark, un software de análisis de código abierto que acelera la ejecución de tareas análise em tempo real sobre la plataforma de procesamiento de datos Hadoop.
Conocida como “la navaja suiza Hadoop”, el funcionamiento de esta nueva herramienta enriquece el ecosistema de este modelo de computación distribuida que ofrece una alternativa interesante a MapReduceMapReduce es un modelo de programación diseñado para procesar y generar grandes conjuntos de datos de manera eficiente. Desarrollado por Google, este enfoque Divide el trabajo en tareas más pequeñas, las cuales se distribuyen entre múltiples nodos en un clúster. Cada nodo procesa su parte y luego se combinan los resultados. Este método permite escalar aplicaciones y manejar volúmenes masivos de información, siendo fundamental en el mundo del Big Data..... Su reemplazo significa ventajas al permitir el análisis en tiempo real en clústeres de Hadoop y multiplicar la velocidad por 100 en memoria en comparación con MapReduce y hasta 10 veces más en disco.
En lugar de ejecutar los trabajos en modo por lotes, lo que hace imposible el análisis en tiempo real entre clústeres, Fagulha trabaja en micro-lotes intervalos de cinco segundos o menos, lo que también proporciona más estabilidad que otras herramientas de tratamiento en tiempo real.
Análisis en tiempo real y facilidad de uso
Con esta versión 1.0 de Spark, Apache ofrece una interfaz de programación de aplicaciones estable bajo licencia Apache 2.0, como ocurre con todo el software que ha surgido de la febril actividad de la incubadora de la fundación. avançar, Databriks lo distribuye en su versión comercial.
Por su compatibilidad, los desarrolladores también pueden utilizarlo para introducir código MapReduce en sus propias aplicaciones, así como para crear otras escritas en Java, Scala o Python, tres de los idiomas más frecuentes.
Ser capaz de analizar conjuntamente datos estructurados junto con otros datos no estructurados en la misma operación de análisis y permitir su uso en equipos pequeños y grandes o Los CPD son otra de las características más destacadas de esta versión.
Además de ser compatible con las fuentes de datos del sistema de archivos HDFSHDFS, o Sistema de Arquivos Distribuído Hadoop, É uma infraestrutura essencial para armazenar grandes volumes de dados. Projetado para ser executado em hardware comum, O HDFS permite a distribuição de dados em vários nós, garantindo alta disponibilidade e tolerância a falhas. Sua arquitetura é baseada em um modelo mestre-escravo, onde um nó mestre gerencia o sistema e os nós escravos armazenam os dados, facilitando o processamento eficiente de informações.. (Hadoop’s Distributed File System), es compatible con algunos de sus componentes como FIOYARN es un gestor de paquetes para JavaScript que permite la instalación y gestión eficiente de dependencias en proyectos de desarrollo. Desarrollado por Facebook, se caracteriza por su rapidez y seguridad en comparación con otros gestores. YARN utiliza un sistema de caché para optimizar las instalaciones y proporciona un archivo de bloqueo para garantizar la consistencia de las versiones de las dependencias en diferentes entornos de desarrollo.... (Yet Anoter Resource Netotiator) o con la base de dadosUm banco de dados é um conjunto organizado de informações que permite armazenar, Gerencie e recupere dados com eficiência. Usado em várias aplicações, De sistemas corporativos a plataformas online, Os bancos de dados podem ser relacionais ou não relacionais. O design adequado é fundamental para otimizar o desempenho e garantir a integridade das informações, facilitando assim a tomada de decisão informada em diferentes contextos.... distribuida HBaseHBase es una base de datos NoSQL diseñada para manejar grandes volúmenes de datos distribuidos en clústeres. Basada en el modelo de columnas, permite un acceso rápido y escalable a la información. HBase se integra fácilmente con Hadoop, lo que la convierte en una opción popular para aplicaciones que requieren almacenamiento y procesamiento de datos masivos. Su flexibilidad y capacidad de crecimiento la hacen ideal para proyectos de big data...., una de las bases de datos de Hadoop. .
A un uso orientado al análisis permanente de datos en tiempo real se le suma otras funcionalidades que giran en torno a su biblioteca de software, entre otros tratamientos gráficos o cálculos en profundidad que involucran aprendizaje automático, así como consultas de datos interactivas.
El laboratorio AMP (Algoritmos, Máquinas y Personas) de Berkeley inició la creación de Spark, y en junio de 2013, hace ya un año, a La comunidad de ASF adoptó el proyecto para darte el máximo impulso. Atualmente, Spark está en uso en empresas de todo el mundo, como IBM, Cloudera Intel o Pivotal ya han integrado Spark en sus distribuciones de Hadoop, por lo que hay grandes expectativas de que este nuevo software juegue un papel importante en el procesamiento de datos de Big Data.
Creada en 1999, la Fundación supervisa decenas de proyectos de código abierto y ha contribuido con miles de soluciones de software que se distribuyen bajo la licencia Apache, incluido el célebre marco del servidor HTTP Apache, el sistema de procesamiento de datos distribuido más popular del mundo.
Postagem Relacionada:
Fonte da imagem: renjith krishnan / FreeDigitalPhotos.net
(função(d, s, Eu iria) {
var js, fjs = d.getElementsByTagName(s)[0];
E se (d.getElementById(Eu iria)) Retorna;
js = d.createElement(s); js.id = id;
js.src = “//connect.facebook.net/es_ES/all.js#xfbml=1&status = 0”;
fjs.parentNode.insertBefore(js, fjs);
}(documento, 'roteiro', 'facebook-jssdk'));