Apache Hadoop présente Spark v1.0

Contenu

apache_presenta_spark-2290152

Afin de réduire la latence des traitements de big data et d'apporter une série d'améliorations, Fondation logicielle Apache (ASF) a annoncé la disponibilité de la première version de Spark, un logiciel d'analyse open source qui accélère exécution de la tâche analyse en temps réel à propos de la plateforme de traitement de données Hadoop.

Connu comme “le couteau suisse Hadoop”, comment fonctionne ce nouvel outil enrichit l'écosystème de este modelo de computación distribuida que ofrece una alternativa interesante a CarteRéduire. Leur remplacement signifie des avantages en permettant une analyse en temps réel sur les clusters Hadoop et multiplier la vitesse par 100 en mémoire par rapport à MapReduce et jusqu'à 10 plus de fois sur disque.

Au lieu d'exécuter les tâches en mode batch, rendant impossible l'analyse en temps réel entre les clusters, Étincelle fonctionne en micro-lots intervalles de cinq secondes ou moins, qui offre également plus de stabilité que d'autres outils de traitement en temps réel.

Analyse en temps réel et facilité d'utilisation

Avec cette version 1.0 l'étincelle, Apache offre une interface de programmation d'applications stable sous licence Apache 2.0, comme tous les logiciels qui ont émergé de l'activité fiévreuse de l'incubateur de la fondation. davantage, Databriks le distribue dans sa version commerciale.

Pour sa compatibilité, les développeurs peuvent également l'utiliser pour saisir du code MapReduce dans leurs propres applications, ainsi que de créer d'autres écrits en Java, Scala ou Python, trois des langues les plus fréquentes.

Être capable d'analyser conjointement des données structurées avec d'autres données non structurées dans la même opération d'analyse et permettre leur utilisation dans petites et grandes équipes o Les CPD sont une autre des fonctionnalités les plus remarquables de cette version.

Además de ser compatible con las fuentes de datos del sistema de archivos HDFS (Le système de fichiers distribué de Hadoop), es compatible con algunos de sus componentes como FIL (Pourtant, Anoter Resource Netotiator) o con la base de données distribuida HBase, l'une des bases de données Hadoop. .

A une utilisation orientée vers l'analyse permanente des données en temps réel s'ajoutent d'autres fonctionnalités qui gravitent autour de sa bibliothèque logicielle, entre autres traitements graphiques ou calculs approfondis impliquant l'apprentissage automatique, ainsi que des requêtes de données interactives.

Le laboratoire AMP (Algorithmes, Machines et personnes) Berkeley a initié la création de Spark, et en juin 2013, il y a un an, les La communauté ASF a adopté le projet pour vous donner le maximum de boost. Actuellement, Spark est utilisé dans des entreprises du monde entier, comme IBM, Cloudera Intel ou Pivotal ont déjà intégré Spark dans leurs distributions Hadoop, il y a donc de fortes attentes que ce nouveau logiciel jouera un rôle important dans le traitement des données Big Data..

Créé en 1999, La Fondation supervise des dizaines de projets open source et a contribué à des milliers de solutions logicielles distribuées sous licence Apache., y compris le célèbre framework de serveur HTTP Apache, le système de traitement de données distribué le plus populaire au monde.

Article similaire:


Source de l'image: renjith krishnan / FreeDigitalPhotos.net

(une fonction(ré, s, identifiant) {
var js, fjs = d.getElementsByTagName(s)[0];
si (d.getElementById(identifiant)) revenir;
js = d.createElement(s); js.id = identifiant;
js.src = “//connect.facebook.net/es_ES/all.js#xfbml=1&état=0”;
fjs.parentNode.insertAvant(js, fjs);
}(document, 'scénario', 'facebook-jssdk'));

Abonnez-vous à notre newsletter

Nous ne vous enverrons pas de courrier SPAM. Nous le détestons autant que vous.