Afin de réduire la latence des traitements de big data et d'apporter une série d'améliorations, Fondation logicielle Apache (ASF) a annoncé la disponibilité de la première version de Spark, un logiciel d'analyse open source qui accélère exécution de la tâche analyse en temps réel à propos de la plateforme de traitement de données Hadoop.
Connu comme “le couteau suisse Hadoop”, comment fonctionne ce nouvel outil enrichit l'écosystème de este modelo de computación distribuida que ofrece una alternativa interesante a CarteRéduireMapReduce es un modelo de programación diseñado para procesar y generar grandes conjuntos de datos de manera eficiente. Desarrollado por Google, este enfoque Divide el trabajo en tareas más pequeñas, las cuales se distribuyen entre múltiples nodos en un clúster. Cada nodo procesa su parte y luego se combinan los resultados. Este método permite escalar aplicaciones y manejar volúmenes masivos de información, siendo fundamental en el mundo del Big Data..... Leur remplacement signifie des avantages en permettant une analyse en temps réel sur les clusters Hadoop et multiplier la vitesse par 100 en mémoire par rapport à MapReduce et jusqu'à 10 plus de fois sur disque.
Au lieu d'exécuter les tâches en mode batch, rendant impossible l'analyse en temps réel entre les clusters, Étincelle fonctionne en micro-lots intervalles de cinq secondes ou moins, qui offre également plus de stabilité que d'autres outils de traitement en temps réel.
Analyse en temps réel et facilité d'utilisation
Avec cette version 1.0 l'étincelle, Apache offre une interface de programmation d'applications stable sous licence Apache 2.0, comme tous les logiciels qui ont émergé de l'activité fiévreuse de l'incubateur de la fondation. davantage, Databriks le distribue dans sa version commerciale.
Pour sa compatibilité, les développeurs peuvent également l'utiliser pour saisir du code MapReduce dans leurs propres applications, ainsi que de créer d'autres écrits en Java, Scala ou Python, trois des langues les plus fréquentes.
Être capable d'analyser conjointement des données structurées avec d'autres données non structurées dans la même opération d'analyse et permettre leur utilisation dans petites et grandes équipes o Les CPD sont une autre des fonctionnalités les plus remarquables de cette version.
Además de ser compatible con las fuentes de datos del sistema de archivos HDFSHDFS, o Sistema de Archivos Distribuido de Hadoop, es una infraestructura clave para el almacenamiento de grandes volúmenes de datos. Diseñado para ejecutarse en hardware común, HDFS permite la distribución de datos en múltiples nodos, garantizando alta disponibilidad y tolerancia a fallos. Su arquitectura se basa en un modelo maestro-esclavo, donde un nodo maestro gestiona el sistema y los nodos esclavos almacenan los datos, facilitando el procesamiento eficiente de información... (Le système de fichiers distribué de Hadoop), es compatible con algunos de sus componentes como FILYARN es un gestor de paquetes para JavaScript que permite la instalación y gestión eficiente de dependencias en proyectos de desarrollo. Desarrollado por Facebook, se caracteriza por su rapidez y seguridad en comparación con otros gestores. YARN utiliza un sistema de caché para optimizar las instalaciones y proporciona un archivo de bloqueo para garantizar la consistencia de las versiones de las dependencias en diferentes entornos de desarrollo.... (Pourtant, Anoter Resource Netotiator) o con la base de donnéesUne base de données est un ensemble organisé d’informations qui vous permet de stocker, Gérez et récupérez efficacement les données. Utilisé dans diverses applications, Des systèmes d’entreprise aux plateformes en ligne, Les bases de données peuvent être relationnelles ou non relationnelles. Une bonne conception est essentielle pour optimiser les performances et garantir l’intégrité de l’information, facilitant ainsi la prise de décision éclairée dans différents contextes.... distribuida HBaseHBase es una base de datos NoSQL diseñada para manejar grandes volúmenes de datos distribuidos en clústeres. Basada en el modelo de columnas, permite un acceso rápido y escalable a la información. HBase se integra fácilmente con Hadoop, lo que la convierte en una opción popular para aplicaciones que requieren almacenamiento y procesamiento de datos masivos. Su flexibilidad y capacidad de crecimiento la hacen ideal para proyectos de big data...., l'une des bases de données Hadoop. .
A une utilisation orientée vers l'analyse permanente des données en temps réel s'ajoutent d'autres fonctionnalités qui gravitent autour de sa bibliothèque logicielle, entre autres traitements graphiques ou calculs approfondis impliquant l'apprentissage automatique, ainsi que des requêtes de données interactives.
Le laboratoire AMP (Algorithmes, Machines et personnes) Berkeley a initié la création de Spark, et en juin 2013, il y a un an, les La communauté ASF a adopté le projet pour vous donner le maximum de boost. Actuellement, Spark est utilisé dans des entreprises du monde entier, comme IBM, Cloudera Intel ou Pivotal ont déjà intégré Spark dans leurs distributions Hadoop, il y a donc de fortes attentes que ce nouveau logiciel jouera un rôle important dans le traitement des données Big Data..
Créé en 1999, La Fondation supervise des dizaines de projets open source et a contribué à des milliers de solutions logicielles distribuées sous licence Apache., y compris le célèbre framework de serveur HTTP Apache, le système de traitement de données distribué le plus populaire au monde.
Article similaire:
Source de l'image: renjith krishnan / FreeDigitalPhotos.net
(une fonction(ré, s, identifiant) {
var js, fjs = d.getElementsByTagName(s)[0];
si (d.getElementById(identifiant)) revenir;
js = d.createElement(s); js.id = identifiant;
js.src = “//connect.facebook.net/es_ES/all.js#xfbml=1&état=0”;
fjs.parentNode.insertAvant(js, fjs);
}(document, 'scénario', 'facebook-jssdk'));
Articles Similaires:
- Architecture d'étincelle | Architecture Apache Spark pour les ingénieurs de données
- Spark Streaming en temps réel | Transmission de données en temps réel avec Apache Spark
- Livres indispensables pour les débutants sur le Big Data, Hadoop et Apache Spark
- Diffusion Spark | Guide du débutant sur le streaming Spark