Soluciones Hadoop y Big Data

Contenidos

big data

Soluciones Hadoop y Big data abre un amplio abanico de alternativas para el tratamiento de big data. Aunque Cloudera lanzó una vez el primer paquete comercial basado en Hadoop, hoy existe una cifra muy grande de distribuciones comerciales que buscan facilitar su configuración e instalación.

Como guía, en un reporte reciente de Analyze Future titulado «Hadoop: Tendencias y previsiones de crecimiento de la industria hasta 2020», las siguientes diez compañías son seleccionadas como las principales compañías que operan en el mercado Hadoop:

  • Servicios web de Amazon
  • Cisco Systems
  • Cloudera Inc
  • Datameer, Inc
  • Hortonworks, Inc
  • Karmasphere, Inc.
  • Tecnologías MapR
  • Corporción Pentaho
  • Corporación Teradata
  • Marcar lógica

A pesar de esto, el paisaje cambia constantemente. Según el mismo reporte, se espera que aumente el número de distribuidores de Hadoop y, por eso, la oferta de software empaquetado. En realidad, esta es una tendencia actual, debido a que al mismo tiempo de estas compañías, constantemente están surgiendo proveedores más pequeños que van ganando fuerza por su agilidad, obligando a las grandes compañías a innovar.

Concretamente, el mercado de software empaquetado Hadoop registraría una tasa anual compuesta del 62,9% en el período analizado, entre 2013 y 2020.

Los revendedores ayudan a sus clientes a administrar los datos por medio de Hadoop, un software open source que puede categorizar y analizar grandes cantidades de información de Big Data. Es, en resumen, simplificar el análisis datos que agregan valor al marco original de Apache Hadoop, el marco común.

El ecosistema de Hadoop

Aún cuando su nombre es único, en realidad Hadoop es una familia de tecnologías open source supervisadas por la Apache Software Foundation, y por ello algunos de sus productos posibilitan diversas combinaciones y podemos encontrarlos en paquetes comerciales.

Según Philip Russom, director de investigación de administración de datos en The Data Warehousing Institute, la biblioteca de Hadoop incluye, «En orden de prioridad de BI: Hadoop Distribute File System (HDFS), MapReduce, Pig, Hive, HBase, HCatalog, Ambari, Mohout, Humos, entre otros ”.

Al mismo tiempo, la comunidad de Hadoop está constantemente creando nuevos proyectos. Aún cuando se puede combinar de varias formas, en opinión del experto, una pila de tecnología práctica sería HDFS y MapReduce (tal vez con Pig, Hive y HBase) para aplicaciones de inteligencia empresarial (BI), almacenamiento de datos (DW), integración de datos (DI) y análisis avanzado.

¿Hadoop Apache o distribución comercial?

Las ventajas comparativas entre distribuidores se enfocan en sus diferentes fórmulas con respecto a implementación y facilidad de administración, aún cuando las soluciones de BI open source pueden responder estupendamente a las necesidades del negocio, según un reporte de Forrestar Research.

Por tanto, cada distribución es distinto y, al mismo tiempo, todas comparten su núcleo, aún cuando algunos fabricantes ofrecen sus propias aplicaciones MapReduce. Así, al mismo tiempo de las nuevas generaciones de herramientas y las diferentes opciones comerciales disponibles, Apache Hadoop está abierto a cualquiera que quiera utilizarlo para el almacenamiento y procesamiento de grandes cantidades de datos dispares.

El hecho de que Apache Hadoop sea open source disponible por medio de los proveedores plantea el inevitable dilema de preguntarse qué opción es más conveniente. Al mismo tiempo de ser clave comparar Las alternativas tecnológicas antes de elegir, es necesario prestar atención el costo económico, la inclusión y necesidad de herramientas administrativas, así como aspectos igualmente decisivos como el mantenimiento y la asistencia técnica.

Publicación relacionada:

Fuente de la imagen: Twobee / FreeDigitalPhotos.net

Suscribite a nuestro Newsletter

No te enviaremos correo SPAM. Lo odiamos tanto como tú.