Soluciones Hadoop y Grandi dati abre un amplio abanico de alternativas para el tratamiento de big data. Aunque Cloudera lanzó una vez el primer paquete comercial basado en Hadoop, hoy existe una cifra muy grande de distribuciones comerciales que buscan facilitar su configuración e instalación.
Como guía, en un reporte reciente de Analyze Future titulado “Hadoop: Tendencias y previsiones de crecimiento de la industria hasta 2020”, las siguientes diez compañías son seleccionadas como las principales compañías que operan en el mercado Hadoop:
- Servizi Web Amazon
- Cisco Systems
- Cloudera Inc
- Datameer, Inc
- Hortonworks ·, Inc
- Karmasphere, Inc.
- Tecnologías MapR
- Corporción Pentaho
- Corporación Teradata
- Marcar lógica
Nonostante questo, el paisaje cambia constantemente. Según el mismo reporte, se espera que aumente el número de distribuidores de Hadoop y, perché, la oferta de software empaquetado. In realtà, esta es una tendencia actual, debido a que al mismo tiempo de estas compañías, constantemente están surgiendo proveedores más pequeños que van ganando fuerza por su agilidad, obligando a las grandes compañías a innovar.
In particolare, el mercado de software empaquetado Hadoop registraría una tasa anual compuesta del 62,9% en el período analizado, Entra 2013 e 2020.
Los revendedores ayudan a sus clientes a administrar los datos por medio de Hadoop, un software open source que puede categorizar y analizar grandes cantidades de información de Big Data. è, In sintesi, simplificar el análisis datos que agregan valor al marco original de Apache Hadoop, el marco común.
El ecosistema de Hadoop
Aún cuando su nombre es único, en realidad Hadoop es una familia de tecnologías open source supervisadas por la Apache Software Foundation, y por ello algunos de sus productos posibilitan diversas combinaciones y podemos encontrarlos en paquetes comerciales.
Según Philip Russom, director de investigación de administración de datos en The Data Warehousing Institute, la biblioteca de Hadoop incluye, “En orden de prioridad de BI: Hadoop Distribute File System (HDFSHDFS, o File system distribuito Hadoop, Si tratta di un'infrastruttura chiave per l'archiviazione di grandi volumi di dati. Progettato per funzionare su hardware comune, HDFS consente la distribuzione dei dati su più nodi, garantire un'elevata disponibilità e tolleranza ai guasti. La sua architettura si basa su un modello master-slave, dove un nodo master gestisce il sistema e i nodi slave memorizzano i dati, facilitare l'elaborazione efficiente delle informazioni..), Riduci mappaMapReduce è un modello di programmazione progettato per elaborare e generare in modo efficiente set di dati di grandi dimensioni. Sviluppato da Google, Questo approccio suddivide il lavoro in attività più piccole, che sono distribuiti tra più nodi in un cluster. Ogni nodo elabora la sua parte e poi i risultati vengono combinati. Questo metodo consente di scalare le applicazioni e gestire enormi volumi di informazioni, essere fondamentali nel mondo dei Big Data...., MaialeEl cerdo, un mamífero domesticado de la familia Suidae, es conocido por su versatilidad en la agricultura y la producción de alimentos. Originario de Asia, su cría se ha extendido por todo el mundo. Los cerdos son omnívoros y poseen una alta capacidad de adaptación a diversos hábitats. Cosa c'è di più, juegan un papel importante en la economía, proporcionando carne, cuero y otros productos derivados. Su inteligencia y comportamiento social también son..., AlveareHive è una piattaforma di social media decentralizzata che consente ai suoi utenti di condividere contenuti e connettersi con gli altri senza l'intervento di un'autorità centrale. Utilizza la tecnologia blockchain per garantire la sicurezza e la proprietà dei dati. A differenza di altri social network, Hive consente agli utenti di monetizzare i propri contenuti attraverso ricompense in criptovalute, che incoraggia la creazione e lo scambio attivo di informazioni...., HBaseHBase es una base de datos NoSQL diseñada para manejar grandes volúmenes de datos distribuidos en clústeres. Basada en el modelo de columnas, permite un acceso rápido y escalable a la información. HBase se integra fácilmente con Hadoop, lo que la convierte en una opción popular para aplicaciones que requieren almacenamiento y procesamiento de datos masivos. Su flexibilidad y capacidad de crecimiento la hacen ideal para proyectos de big data...., HCatalog, Ambari, Mohout, Humos, entre otros ”.
Allo stesso tempo, la comunidad de Hadoop está constantemente creando nuevos proyectos. Aún cuando se puede combinar de varias formas, en opinión del experto, una pila de tecnología práctica sería HDFS y MapReduce (tal vez con Pig, Hive e HBase) para aplicaciones de inteligencia empresarial (CON UN), archivio dati (DW), integrazione dei dati (DI) y análisis avanzado.
¿Hadoop Apache o distribución comercial?
Las ventajas comparativas entre distribuidores se enfocan en sus diferentes fórmulas con respecto a implementación y facilidad de administración, aún cuando las soluciones de BI open source pueden responder estupendamente a las necesidades del negocio, según un reporte de Forrestar Research.
Perciò, cada distribución es distinto y, allo stesso tempo, todas comparten su núcleo, aún cuando algunos fabricantes ofrecen sus propias aplicaciones MapReduce. A) Sì, al mismo tiempo de las nuevas generaciones de herramientas y las diferentes opciones comerciales disponibles, Apache Hadoop está abierto a cualquiera que quiera utilizarlo para el almacenamiento y procesamiento de grandes cantidades de datos dispares.
El hecho de que Apache Hadoop sea open source disponible por medio de los proveedores plantea el inevitable dilema de preguntarse qué opción es más conveniente. Al mismo tiempo de ser clave confrontare Las alternativas tecnológicas antes de elegir, es necesario prestar atención el costo económico, la inclusión y necesidad de herramientas administrativas, así como aspectos igualmente decisivos como el mantenimiento y la asistencia técnica.
Articolo correlato:
Fonte immagine: Twobee / FreeDigitalPhotos.net