Con el fin de reducir la latencia de las operaciones de procesamiento de big data y traer una serie de mejoras, Apache Software Foundation (ASF) ha anunciado la disponibilidad de la primera versión de Spark, un software de análisis de código abierto que acelera la ejecución de tareas analisi in tempo reale sobre la plataforma de procesamiento de datos Hadoop.
Conocida como “la navaja suiza Hadoop”, el funcionamiento de esta nueva herramienta enriquece el ecosistema de este modelo de computación distribuida que ofrece una alternativa interesante a Riduci mappaMapReduce es un modelo de programación diseñado para procesar y generar grandes conjuntos de datos de manera eficiente. Desarrollado por Google, este enfoque Divide el trabajo en tareas más pequeñas, las cuales se distribuyen entre múltiples nodos en un clúster. Cada nodo procesa su parte y luego se combinan los resultados. Este método permite escalar aplicaciones y manejar volúmenes masivos de información, siendo fundamental en el mundo del Big Data..... Su reemplazo significa ventajas al permitir el análisis en tiempo real en clústeres de Hadoop y multiplicar la velocidad por 100 en memoria en comparación con MapReduce y hasta 10 veces más en disco.
En lugar de ejecutar los trabajos en modo por lotes, lo que hace imposible el análisis en tiempo real entre clústeres, Scintilla trabaja en micro-lotes intervalos de cinco segundos o menos, lo que también proporciona más estabilidad que otras herramientas de tratamiento en tiempo real.
Análisis en tiempo real y facilidad de uso
Con esta versión 1.0 de Spark, Apache ofrece una interfaz de programación de aplicaciones estable bajo licencia Apache 2.0, como ocurre con todo el software que ha surgido de la febril actividad de la incubadora de la fundación. ulteriore, Databriks lo distribuye en su versión comercial.
Por su compatibilidad, los desarrolladores también pueden utilizarlo para introducir código MapReduce en sus propias aplicaciones, así como para crear otras escritas en Giava, Scala o Python, tres de los idiomas más frecuentes.
Ser capaz de analizar conjuntamente datos estructurados junto con otros datos no estructurados en la misma operación de análisis y permitir su uso en equipos pequeños y grandes o Los CPD son otra de las características más destacadas de esta versión.
Además de ser compatible con las fuentes de datos del sistema de archivos HDFSHDFS, o File system distribuito Hadoop, Si tratta di un'infrastruttura chiave per l'archiviazione di grandi volumi di dati. Progettato per funzionare su hardware comune, HDFS consente la distribuzione dei dati su più nodi, garantire un'elevata disponibilità e tolleranza ai guasti. La sua architettura si basa su un modello master-slave, dove un nodo master gestisce il sistema e i nodi slave memorizzano i dati, facilitare l'elaborazione efficiente delle informazioni.. (Hadoop’s Distributed File System), es compatible con algunos de sus componentes como FILATOYARN es un gestor de paquetes para JavaScript que permite la instalación y gestión eficiente de dependencias en proyectos de desarrollo. Desarrollado por Facebook, se caracteriza por su rapidez y seguridad en comparación con otros gestores. YARN utiliza un sistema de caché para optimizar las instalaciones y proporciona un archivo de bloqueo para garantizar la consistencia de las versiones de las dependencias en diferentes entornos de desarrollo.... (Yet Anoter Resource Netotiator) o con la Banca datiUn database è un insieme organizzato di informazioni che consente di archiviare, Gestisci e recupera i dati in modo efficiente. Utilizzato in varie applicazioni, Dai sistemi aziendali alle piattaforme online, I database possono essere relazionali o non relazionali. Una progettazione corretta è fondamentale per ottimizzare le prestazioni e garantire l'integrità delle informazioni, facilitando così il processo decisionale informato in diversi contesti.... distribuida HBaseHBase es una base de datos NoSQL diseñada para manejar grandes volúmenes de datos distribuidos en clústeres. Basada en el modelo de columnas, permite un acceso rápido y escalable a la información. HBase se integra fácilmente con Hadoop, lo que la convierte en una opción popular para aplicaciones que requieren almacenamiento y procesamiento de datos masivos. Su flexibilidad y capacidad de crecimiento la hacen ideal para proyectos de big data...., una de las bases de datos de Hadoop. .
A un uso orientado al análisis permanente de datos en tiempo real se le suma otras funcionalidades que giran en torno a su biblioteca de software, entre otros tratamientos gráficos o cálculos en profundidad que involucran aprendizaje automático, así como consultas de datos interactivas.
El laboratorio AMP (Algoritmi, Máquinas y Personas) de Berkeley inició la creación de Spark, y en junio de 2013, hace ya un año, il La comunidad de ASF adoptó el proyecto para darte el máximo impulso. Attualmente, Spark está en uso en empresas de todo el mundo, como IBM, Cloudera Intel o Pivotal ya han integrado Spark en sus distribuciones de Hadoop, por lo que hay grandes expectativas de que este nuevo software juegue un papel importante en el procesamiento de datos de Big Data.
Creada en 1999, la Fundación supervisa decenas de proyectos de código abierto y ha contribuido con miles de soluciones de software que se distribuyen bajo la licencia Apache, incluido el célebre marco del servidor HTTP Apache, el sistema de procesamiento de datos distribuido más popular del mundo.
Articolo correlato:
Fonte immagine: sta perfezionando il nucleo / FreeDigitalPhotos.net
(funzione(D, S, ID) {
var js, fjs = d.getElementsByTagName(S)[0];
Se (d.getElementById(ID)) Restituzione;
js = d.createElement(S); js.id = id;
js.src = “//connect.facebook.net/es_ES/all.js#xfbml=1&stato=0”;
fjs.parentNode.insertBefore(js, fjs);
}(documento, 'copione', 'facebook-jssdk'));