Soluciones Hadoop y Big data abre un amplio abanico de alternativas para el tratamiento de big data. Aunque Cloudera lanzó una vez el primer paquete comercial basado en Hadoop, hoy existe una cifra muy grande de distribuciones comerciales que buscan facilitar su configuración e instalación.
Como guía, en un reporte reciente de Analyze Future titulado «Hadoop: Tendencias y previsiones de crecimiento de la industria hasta 2020», las siguientes diez compañías son seleccionadas como las principales compañías que operan en el mercado Hadoop:
- Servicios web de Amazon
- Cisco Systems
- Cloudera Inc
- Datameer, Inc
- Hortonworks, Inc
- Karmasphere, Inc.
- Tecnologías MapR
- Corporción Pentaho
- Corporación Teradata
- Marcar lógica
A pesar de esto, el paisaje cambia constantemente. Según el mismo reporte, se espera que aumente el número de distribuidores de Hadoop y, por eso, la oferta de software empaquetado. En realidad, esta es una tendencia actual, debido a que al mismo tiempo de estas compañías, constantemente están surgiendo proveedores más pequeños que van ganando fuerza por su agilidad, obligando a las grandes compañías a innovar.
Concretamente, el mercado de software empaquetado Hadoop registraría una tasa anual compuesta del 62,9% en el período analizado, entre 2013 y 2020.
Los revendedores ayudan a sus clientes a administrar los datos por medio de Hadoop, un software open source que puede categorizar y analizar grandes cantidades de información de Big Data. Es, en resumen, simplificar el análisis datos que agregan valor al marco original de Apache Hadoop, el marco común.
El ecosistema de Hadoop
Aún cuando su nombre es único, en realidad Hadoop es una familia de tecnologías open source supervisadas por la Apache Software Foundation, y por ello algunos de sus productos posibilitan diversas combinaciones y podemos encontrarlos en paquetes comerciales.
Según Philip Russom, director de investigación de administración de datos en The Data Warehousing Institute, la biblioteca de Hadoop incluye, «En orden de prioridad de BI: Hadoop Distribute File System (HDFSHDFS, o Sistema de Archivos Distribuido de Hadoop, es una infraestructura clave para el almacenamiento de grandes volúmenes de datos. Diseñado para ejecutarse en hardware común, HDFS permite la distribución de datos en múltiples nodos, garantizando alta disponibilidad y tolerancia a fallos. Su arquitectura se basa en un modelo maestro-esclavo, donde un nodo maestro gestiona el sistema y los nodos esclavos almacenan los datos, facilitando el procesamiento eficiente de información...), MapReduceMapReduce es un modelo de programación diseñado para procesar y generar grandes conjuntos de datos de manera eficiente. Desarrollado por Google, este enfoque Divide el trabajo en tareas más pequeñas, las cuales se distribuyen entre múltiples nodos en un clúster. Cada nodo procesa su parte y luego se combinan los resultados. Este método permite escalar aplicaciones y manejar volúmenes masivos de información, siendo fundamental en el mundo del Big Data...., PigEl cerdo, un mamífero domesticado de la familia Suidae, es conocido por su versatilidad en la agricultura y la producción de alimentos. Originario de Asia, su cría se ha extendido por todo el mundo. Los cerdos son omnívoros y poseen una alta capacidad de adaptación a diversos hábitats. Además, juegan un papel importante en la economía, proporcionando carne, cuero y otros productos derivados. Su inteligencia y comportamiento social también son..., HiveHive es una plataforma de redes sociales descentralizada que permite a sus usuarios compartir contenido y conectar con otros sin la intervención de una autoridad central. Utiliza tecnología blockchain para garantizar la seguridad y la propiedad de los datos. A diferencia de otras redes sociales, Hive permite a los usuarios monetizar su contenido a través de recompensas en criptomonedas, lo que fomenta la creación y el intercambio activo de información...., HBaseHBase es una base de datos NoSQL diseñada para manejar grandes volúmenes de datos distribuidos en clústeres. Basada en el modelo de columnas, permite un acceso rápido y escalable a la información. HBase se integra fácilmente con Hadoop, lo que la convierte en una opción popular para aplicaciones que requieren almacenamiento y procesamiento de datos masivos. Su flexibilidad y capacidad de crecimiento la hacen ideal para proyectos de big data...., HCatalog, Ambari, Mohout, Humos, entre otros ”.
Al mismo tiempo, la comunidad de Hadoop está constantemente creando nuevos proyectos. Aún cuando se puede combinar de varias formas, en opinión del experto, una pila de tecnología práctica sería HDFS y MapReduce (tal vez con Pig, Hive y HBase) para aplicaciones de inteligencia empresarial (BI), almacenamiento de datos (DW), integración de datos (DI) y análisis avanzado.
¿Hadoop Apache o distribución comercial?
Las ventajas comparativas entre distribuidores se enfocan en sus diferentes fórmulas con respecto a implementación y facilidad de administración, aún cuando las soluciones de BI open source pueden responder estupendamente a las necesidades del negocio, según un reporte de Forrestar Research.
Por tanto, cada distribución es distinto y, al mismo tiempo, todas comparten su núcleo, aún cuando algunos fabricantes ofrecen sus propias aplicaciones MapReduce. Así, al mismo tiempo de las nuevas generaciones de herramientas y las diferentes opciones comerciales disponibles, Apache Hadoop está abierto a cualquiera que quiera utilizarlo para el almacenamiento y procesamiento de grandes cantidades de datos dispares.
El hecho de que Apache Hadoop sea open source disponible por medio de los proveedores plantea el inevitable dilema de preguntarse qué opción es más conveniente. Al mismo tiempo de ser clave comparar Las alternativas tecnológicas antes de elegir, es necesario prestar atención el costo económico, la inclusión y necesidad de herramientas administrativas, así como aspectos igualmente decisivos como el mantenimiento y la asistencia técnica.
Publicación relacionada:
Fuente de la imagen: Twobee / FreeDigitalPhotos.net