Big data presenta nuevos desafíos para la administración de datos que van más allá de la administración de grandes volúmenes de datos. Un desafío que a menudo se pasa por alto es el ciclo de vida y la normalizaciónLa normalización es un proceso fundamental en diversas disciplinas, que busca establecer estándares y criterios uniformes para mejorar la calidad y la eficiencia. En contextos como la ingeniería, la educación y la administración, la normalización facilita la comparación, la interoperabilidad y la comprensión mutua. Al implementar normas, se promueve la cohesión y se optimizan recursos, lo que contribuye al desarrollo sostenible y a la mejora continua de los procesos.... de una base de datosUna base de datos es un conjunto organizado de información que permite almacenar, gestionar y recuperar datos de manera eficiente. Utilizadas en diversas aplicaciones, desde sistemas empresariales hasta plataformas en línea, las bases de datos pueden ser relacionales o no relacionales. Su diseño adecuado es fundamental para optimizar el rendimiento y garantizar la integridad de la información, facilitando así la toma de decisiones informadas en diferentes contextos.... en este contexto de big data.
Créditos fotográficos: iLexx
La gobernanza de los datos, tanto de la fuente de datosUna "fuente de datos" se refiere a cualquier lugar o medio donde se puede obtener información. Estas fuentes pueden ser tanto primarias, como encuestas y experimentos, como secundarias, como bases de datos, artículos académicos o informes estadísticos. La elección adecuada de una fuente de datos es crucial para garantizar la validez y la fiabilidad de la información en investigaciones y análisis.... como de sus resultados, en este tipo de base de datos presenta grandes desafíos. El comparación del ciclo de vida y normalización de una base de datos tradicional con big data ayuda a comprender uno de los desafíos de gobernanza de datos más complejos en este nuevo mundo de datos.
Las etapas del ciclo de vida de los datos
A ciclo de vida de los datos típico constará de cuatro etapas:
- Ingestión. No puedo pensar en el ciclo de vida y normalización de una base de datos sin comenzar por el principio, momento en el que se incorporan las distintas fuentes de datos a la plataforma de datos. En esta etapa además es común hallar procesos de verificación y validación de datos básico, aún cuando lo principal en este momento es borrar todos los datos disponibles en una ubicación central (que puede ser un almacén de datos, un almacén de datos o un lago de datos).
- Identificación / Limpieza / Enriquecimiento. Se reconocen los tipos de datos y los nombres con los que aparecen en las columnas. En esta etapa, Los datos además se pueden enriquecer y limpiar.
- Estandarización. Este paso implica transformar los datos en un modelo de datos neutral acordado comercialmente. Aquí, las relaciones se establecen entre las diferentes entidades de datos, esencialmente codificando el conocimiento interno y la estructura de los datos. Esta etapa además se conoce como etapa de integración de datos y coincide con el momento en que regularmente se introducen las reglas de negocio y comprobaciones de dominio, así como validación de datos maestros o de referencia
- Presentación. Es el paso final del procedimiento, cuando se completa la transformación del modelo comercial neutral creado en el paso anterior en una o más representaciones de datos específicas de la compañía. Este modelo a menudo se denomina modelo dimensional. Es común que en este punto se apliquen reglas comerciales adicionales, así como agregaciones y la creación de datos derivados.
- Esquema en lectura / esquema en escritura. No se puede hablar de todo el ciclo de vida de los datos sin mencionar cuándo los utiliza el usuario. Una de las principales diferencias entre el almacenamiento de datos tradicional y el almacenamiento de big data es el punto en el que el usuario final interactúa con la información. Por eso, mientras que en el entorno de almacenamiento de datos tradicional, el consumidor de forma general usaría un esquema sobre escritura bien definido, las plataformas de BI y las soluciones de análisis avanzado pueden consumir datos de la capa de presentación para proporcionar informes, cuadros de mando y análisis predictivo, permitiendo al consumidor de datos tener acceso a la data mucho antes.
Ciclo de vida y normalización de una base de datos en entornos Big Data
Al considerar el ciclo de vida y normalización de una base de datos, todo lo vinculado con el uso de la información es determinante, tanto en términos de procesamiento como en vinculación con el costo del ciclo de vida de los datos. Específicamente:
- En Big Data, las dos primeras etapas son de alto volumen y bajo costo y esfuerzo.. Los datos son abundantes y baratos, y la ingestión, identificación y limpieza de datos es relativamente simple. A pesar de esto, el desafío radica en la administración de Big Data. La dificultad de los dos últimos procesos del ciclo de vida y la normalización de una base de datos tiene que ver con la creación de significado. de un conjunto de datos tan grande y en gran medidaLa "medida" es un concepto fundamental en diversas disciplinas, que se refiere al proceso de cuantificar características o magnitudes de objetos, fenómenos o situaciones. En matemáticas, se utiliza para determinar longitudes, áreas y volúmenes, mientras que en ciencias sociales puede referirse a la evaluación de variables cualitativas y cuantitativas. La precisión en la medición es crucial para obtener resultados confiables y válidos en cualquier investigación o aplicación práctica.... desorganizado (esquema de lectura).
- En un entorno tradicional, por el contrario, el almacenamiento de datos necesita una cantidad considerable de esfuerzo para garantizar la calidad de los datos ingeridos y transformar los datos en modelos de datos adecuados. (bosquejo por escrito). Algo que se extiende a la aplicación coherente de las reglas comerciales. A pesar de esto, como todos los consumidores disponen la misma visión del universo de datos, el rendimiento en las consultas es bastante alto y la capacidad de consulta del usuario se ve beneficiada. La densidad de valor de los datos es mucho mayor que en entornos de big data. Aquí, cada fila tiene un valor intrínseco.
Por fin, en materias asociadas con el ciclo de vida y estandarización de una base de datos, es necesario prestar atención la agilidad. Y eso es algo inherente al big data. Aunque los almacenes de datos son notoriamente difíciles, requieren mucho tiempo y son costosos de modificar, los consumidores de datos establecen sus propios criterios y cronogramas dentro de un mundo de macrodatos.
(function(d, s, id) {
var js, fjs = d.getElementsByTagName(s)[0];
if (d.getElementById(id)) return;
js = d.createElement(s); js.id = id;
js.src = «//connect.facebook.net/es_ES/all.js#xfbml=1&status=0»;
fjs.parentNode.insertBefore(js, fjs);
}(document, ‘script’, ‘facebook-jssdk’));