Proporcionar estructura de datos a Big Data para mejorar su rendimiento

Contenidos

Los productos OLAP-on-Hadoop llevan la estructura de datos a big data, optimizando tanto el rendimiento como la escalabilidad, permitiendo a los usuarios consultar y analizar grandes volúmenes de información a la velocidad del pensamiento.

OLAP parece la antítesis de big data, ya que recuerda los enfoques de la vieja escuela para la gestión y el análisis de datos. Pero Algunas técnicas de macrodatos solo pueden tener éxito si todos los miembros de una organización pueden beneficiarse de ellas..

estructura20de20datos-8503049


Hay quienes prefieren escribir Java o SQL contra datos sin procesar de Hadoop, y quienes prefieren ejecutar sentencias SQL en Hadoop. Pero yo
la mayoría prefiere acceder a una estructura de datos diseñada y construida de antemano por un arquitecto de datos.

OLAP en Hadoop

Es un subconjunto de herramientas analíticas que parecen revivir el antiguo concepto de procesamiento analítico en línea (OLAP) adaptándolo para Big Data. Estas herramientas logran niveles más altos de rendimiento y escalabilidad que otras soluciones..

Los productos llamados OLAP-on-Hadoop dimensionan los datos y los presentan en un formato amigable para las empresas. Con OLAP, los usuarios comerciales ven las métricas como dimensiones comunes. Por ejemplo, los ejecutivos pueden examinar las ventas por producto, región y tiempo. Con un clic del mouse, pueden intercambiar métricas, agregar o filtrar dimensiones, pivotar ejes y explorar desde vistas resumidas del desempeño comercial hasta datos sin procesar. En otras palabras, OLAP facilita a los usuarios empresariales analizar los datos presentados de la forma en que ven el negocio.

Para dimensionar los datos, Los productos OLAP-on-Hadoop requieren que los diseñadores modelen datos para analizar, combinar, integrar, limpiar y validar, antes de que los usuarios lo consulten. La mayoría de los productos OLAP en Hadoop no solo modelan previamente los datos, sino que los materializan. Cree nuevas estructuras de datos agregados que se cargan en la memoria o en bases de datos en columnas de alto rendimiento.. Este es un esquema de escritura, que si escucha a la comunidad de big data, ya no está de moda, pero ciertamente es útil para consultar big data.

Optimización de la escalabilidad y el rendimiento

Modelando, calculando y almacenando agregados dimensionales por adelantado, Los productos OLAP-on-Hadoop logran escalabilidad y rendimiento en un entorno de big data. Resuelven el problema de escalabilidad al mantener los datos en Hadoop donde el almacenamiento es barato, lo que le permite Genere cubos dimensionales enormes con terabytes o más de datos. Y resuelven el problema de rendimiento mediante la agregación previa de datos en el almacenamiento en caché de datos de alta velocidad, proporcionando análisis de la velocidad del pensamiento frente a big data.

Muchas empresas recurren a los productos OLAP-on-Hadoop una vez que descubren que otros enfoques para el análisis de big data no funcionan.. Muchos quieren usar Hadoop para reemplazar un almacén de datos, pero rápidamente descubren que las herramientas simplemente no responden al crear un tablero con una lista de selección con 480 mil millones de filas de datos.

Disección de productos OLAP-on-Hadoop

Hay una división en la comunidad OLAP-on-Hadoop sobre la mejor manera de dimensionar los datos en Hadoop:

  • Cubos físicos. La mayoría de los productos utilizan Enfoque MOLAP donde crean una estructura de datos dimensional físicamente distinta (o cubo) dentro Hadoop. Una vez que se crea el cubo, el rendimiento es consistentemente rápido. Pero yoLa desventaja es que puede llevar horas calcular el cubo y las consultas solo se ejecutan en el cubo, no en los datos sin procesar que componen el cubo., lo que significa que los usuarios no obtienen los datos más actualizados posibles.
  • Cubos virtuales. Otros productos crean cubos virtuales contra los datos sin procesar, que es más como un Enfoque ROLAP. Esta proporciona a los usuarios acceso a datos en tiempo real y evita el costo inicial de construir cubos. Pero potencialmente perjudica el rendimiento de las consultas a medida que crea vistas dimensionales sobre la marcha.

Además de los enfoques arquitectónicos, Los productos OLAP-on-Hadoop se diferencian de otras formas. Algunos tienen sus propias herramientas de visualización, otros no, o dan a los clientes la opción de utilizar una herramienta de terceros. Algunos materializan cubos en la memoria, mientras que otros almacenan agregados en una estructura de datos basada en disco.. Algunos almacenan cubos en formatos propietarios, mientras que otros usan formatos de código abierto. Algunos tienen sus propios repositorios de metadatos y motores de análisis, mientras que otros utilizan herramientas de código abierto.

(function(d, s, id) {
var js, fjs = d.getElementsByTagName(s)[0];
if (d.getElementById(id)) return;
js = d.createElement(s); js.id = id;
js.src = «//connect.facebook.net/es_ES/all.js#xfbml=1&status=0»;
fjs.parentNode.insertBefore(js, fjs);
}(document, ‘script’, ‘facebook-jssdk’));

Suscribite a nuestro Newsletter

No te enviaremos correo SPAM. Lo odiamos tanto como tú.