Ciclo de vida y normalización de una base de datos en el contexto de big data

Contenidos

Big data presenta nuevos desafíos para la administración de datos que van más allá de la administración de grandes volúmenes de datos. Un desafío que a menudo se pasa por alto es el ciclo de vida y la normalización de una base de datos en este contexto de big data.

istock-654067526-5806779

Créditos fotográficos: iLexx

La gobernanza de los datos, tanto de la fuente de datos como de sus resultados, en este tipo de base de datos presenta grandes desafíos. El comparación del ciclo de vida y normalización de una base de datos tradicional con big data ayuda a comprender uno de los desafíos de gobernanza de datos más complejos en este nuevo mundo de datos.

Las etapas del ciclo de vida de los datos

A ciclo de vida de los datos típico constará de cuatro etapas:

  1. Ingestión. No puedo pensar en el ciclo de vida y normalización de una base de datos sin comenzar por el principio, momento en el que se incorporan las distintas fuentes de datos a la plataforma de datos. En esta etapa además es común hallar procesos de verificación y validación de datos básico, aún cuando lo principal en este momento es borrar todos los datos disponibles en una ubicación central (que puede ser un almacén de datos, un almacén de datos o un lago de datos).
  2. Identificación / Limpieza / Enriquecimiento. Se reconocen los tipos de datos y los nombres con los que aparecen en las columnas. En esta etapa, Los datos además se pueden enriquecer y limpiar.
  3. Estandarización. Este paso implica transformar los datos en un modelo de datos neutral acordado comercialmente. Aquí, las relaciones se establecen entre las diferentes entidades de datos, esencialmente codificando el conocimiento interno y la estructura de los datos. Esta etapa además se conoce como etapa de integración de datos y coincide con el momento en que regularmente se introducen las reglas de negocio y comprobaciones de dominio, así como validación de datos maestros o de referencia
  4. Presentación. Es el paso final del procedimiento, cuando se completa la transformación del modelo comercial neutral creado en el paso anterior en una o más representaciones de datos específicas de la compañía. Este modelo a menudo se denomina modelo dimensional. Es común que en este punto se apliquen reglas comerciales adicionales, así como agregaciones y la creación de datos derivados.
  5. Esquema en lectura / esquema en escritura. No se puede hablar de todo el ciclo de vida de los datos sin mencionar cuándo los utiliza el usuario. Una de las principales diferencias entre el almacenamiento de datos tradicional y el almacenamiento de big data es el punto en el que el usuario final interactúa con la información. Por eso, mientras que en el entorno de almacenamiento de datos tradicional, el consumidor de forma general usaría un esquema sobre escritura bien definido, las plataformas de BI y las soluciones de análisis avanzado pueden consumir datos de la capa de presentación para proporcionar informes, cuadros de mando y análisis predictivo, permitiendo al consumidor de datos tener acceso a la data mucho antes.

Ciclo de vida y normalización de una base de datos en entornos Big Data

Al considerar el ciclo de vida y normalización de una base de datos, todo lo vinculado con el uso de la información es determinante, tanto en términos de procesamiento como en vinculación con el costo del ciclo de vida de los datos. Específicamente:

  1. En Big Data, las dos primeras etapas son de alto volumen y bajo costo y esfuerzo.. Los datos son abundantes y baratos, y la ingestión, identificación y limpieza de datos es relativamente simple. A pesar de esto, el desafío radica en la administración de Big Data. La dificultad de los dos últimos procesos del ciclo de vida y la normalización de una base de datos tiene que ver con la creación de significado. de un conjunto de datos tan grande y en gran medida desorganizado (esquema de lectura).
  2. En un entorno tradicional, por el contrario, el almacenamiento de datos necesita una cantidad considerable de esfuerzo para garantizar la calidad de los datos ingeridos y transformar los datos en modelos de datos adecuados. (bosquejo por escrito). Algo que se extiende a la aplicación coherente de las reglas comerciales. A pesar de esto, como todos los consumidores disponen la misma visión del universo de datos, el rendimiento en las consultas es bastante alto y la capacidad de consulta del usuario se ve beneficiada. La densidad de valor de los datos es mucho mayor que en entornos de big data. Aquí, cada fila tiene un valor intrínseco.

Por fin, en materias asociadas con el ciclo de vida y estandarización de una base de datos, es necesario prestar atención la agilidad. Y eso es algo inherente al big data. Aunque los almacenes de datos son notoriamente difíciles, requieren mucho tiempo y son costosos de modificar, los consumidores de datos establecen sus propios criterios y cronogramas dentro de un mundo de macrodatos.

(function(d, s, id) {
var js, fjs = d.getElementsByTagName(s)[0];
if (d.getElementById(id)) return;
js = d.createElement(s); js.id = id;
js.src = «//connect.facebook.net/es_ES/all.js#xfbml=1&status=0»;
fjs.parentNode.insertBefore(js, fjs);
}(document, ‘script’, ‘facebook-jssdk’));

Suscribite a nuestro Newsletter

No te enviaremos correo SPAM. Lo odiamos tanto como tú.