Apache Hadoop presenta Spark v1.0

Contenidos

apache_presenta_spark-2290152

Con el fin de reducir la latencia de las operaciones de procesamiento de big data y traer una serie de mejoras, Apache Software Foundation (ASF) ha anunciado la disponibilidad de la primera versión de Spark, un software de análisis de código abierto que acelera la ejecución de tareas análisis en tiempo real sobre la plataforma de procesamiento de datos Hadoop.

Conocida como «la navaja suiza Hadoop», el funcionamiento de esta nueva herramienta enriquece el ecosistema de este modelo de computación distribuida que ofrece una alternativa interesante a MapReduce. Su reemplazo significa ventajas al permitir el análisis en tiempo real en clústeres de Hadoop y multiplicar la velocidad por 100 en memoria en comparación con MapReduce y hasta 10 veces más en disco.

En lugar de ejecutar los trabajos en modo por lotes, lo que hace imposible el análisis en tiempo real entre clústeres, Spark trabaja en micro-lotes intervalos de cinco segundos o menos, lo que también proporciona más estabilidad que otras herramientas de tratamiento en tiempo real.

Análisis en tiempo real y facilidad de uso

Con esta versión 1.0 de Spark, Apache ofrece una interfaz de programación de aplicaciones estable bajo licencia Apache 2.0, como ocurre con todo el software que ha surgido de la febril actividad de la incubadora de la fundación. Adicionalmente, Databriks lo distribuye en su versión comercial.

Por su compatibilidad, los desarrolladores también pueden utilizarlo para introducir código MapReduce en sus propias aplicaciones, así como para crear otras escritas en Java, Scala o Python, tres de los idiomas más frecuentes.

Ser capaz de analizar conjuntamente datos estructurados junto con otros datos no estructurados en la misma operación de análisis y permitir su uso en equipos pequeños y grandes o Los CPD son otra de las características más destacadas de esta versión.

Además de ser compatible con las fuentes de datos del sistema de archivos HDFS (Hadoop’s Distributed File System), es compatible con algunos de sus componentes como YARN (Yet Anoter Resource Netotiator) o con la base de datos distribuida HBase, una de las bases de datos de Hadoop. .

A un uso orientado al análisis permanente de datos en tiempo real se le suma otras funcionalidades que giran en torno a su biblioteca de software, entre otros tratamientos gráficos o cálculos en profundidad que involucran aprendizaje automático, así como consultas de datos interactivas.

El laboratorio AMP (Algoritmos, Máquinas y Personas) de Berkeley inició la creación de Spark, y en junio de 2013, hace ya un año, el La comunidad de ASF adoptó el proyecto para darte el máximo impulso. Actualmente, Spark está en uso en empresas de todo el mundo, como IBM, Cloudera Intel o Pivotal ya han integrado Spark en sus distribuciones de Hadoop, por lo que hay grandes expectativas de que este nuevo software juegue un papel importante en el procesamiento de datos de Big Data.

Creada en 1999, la Fundación supervisa decenas de proyectos de código abierto y ha contribuido con miles de soluciones de software que se distribuyen bajo la licencia Apache, incluido el célebre marco del servidor HTTP Apache, el sistema de procesamiento de datos distribuido más popular del mundo.

Publicación relacionada:


Fuente de la imagen: renjith krishnan / FreeDigitalPhotos.net

(function(d, s, id) {
var js, fjs = d.getElementsByTagName(s)[0];
if (d.getElementById(id)) return;
js = d.createElement(s); js.id = id;
js.src = «//connect.facebook.net/es_ES/all.js#xfbml=1&status=0»;
fjs.parentNode.insertBefore(js, fjs);
}(document, ‘script’, ‘facebook-jssdk’));

Suscribite a nuestro Newsletter

No te enviaremos correo SPAM. Lo odiamos tanto como tú.