El arquitectura de un almacén de datos puede tener diferentes estructuras en diferentes implementaciones. Algunos pueden tener un ODS (almacén de datos operativos), mientras que otros pueden tener varios almacenes de datos. Algunos pueden tener una pequeña cantidad de fuentes de datos, mientras que otros pueden tener docenas de fuentes de datos. Dado esto, es mucho más razonable presentar las diferentes capas de la arquitectura de un almacén de datos en lugar de discutir un sistema específico.
En general, cada arquitectura de un datawarehouse tiene las siguientes capas:
- Capa de extracción de datos
- Capa de almacenamiento de datos
- Capa de presentación de datos
- Capa de operaciones del sistema
Propiedades de la arquitectura de un datawarehouse
Las siguientes propiedades son esenciales para la arquitectura de un datawarehouse:
- Separación– El procedimiento analítico y transaccional debe mantenerse lo más separado factible.
- Escalabilidad: la arquitectura de un datawarehouse, tanto hardware como software, debe ser fácil de actualizar a medida que crece el volumen de datos que deben administrarse y procesarse, así como la cantidad de requerimientos de usuario que deben satisfacerse.
- Extensibilidad: La arquitectura debe poder adaptarse a nuevas aplicaciones y tecnologías sin necesitar de revisar todo el sistema.
- Seguridad: monitorear el acceso es esencial debido a los datos estratégicos que se almacenan en el datawarehouse.
- Administrabilidad: la administración del almacén de datos no debería ser excesivamente difícil.
Capas de toda la arquitectura de almacenamiento de datos
Veamos cada una de las capas de la arquitectura de un datawarehouse a continuación:
- Capa de fuente de datosUna "fuente de datos" se refiere a cualquier lugar o medio donde se puede obtener información. Estas fuentes pueden ser tanto primarias, como encuestas y experimentos, como secundarias, como bases de datos, artículos académicos o informes estadísticos. La elección adecuada de una fuente de datos es crucial para garantizar la validez y la fiabilidad de la información en investigaciones y análisis....: Representa las diferentes fuentes de datos que alimentan los datos del almacén de datos. La fuente de datos puede estar en cualquier formato: archivo de texto plano, base de datos relacional, otros tipos de base de datos, archivo de Excel, etc. Todos estos pueden actuar como fuente de datos. Al mismo tiempo, los tipos de datos pueden ser muy variados:
- Datos de operacionescomo datos de ventas, datos de recursos humanos, datos de productos, datos de inventario, datos de marketing y datos de sistemas.
- Registros de un servidor web, con datos de navegación del usuario.
- Datos de estudios de mercado internos.
- Datos de terceros, como datos de censos, datos demográficos o datos de encuestas.
- Capa de extracción de datos: Los datos se extraen de las fuentes de datos y se llevan al sistema de almacenamiento de datos. Es probable que se limpien algunos datos mínimos en esta capa, pero no se espera una transformación de datos importante.
- Área de prueba: aquí es donde los datos se purifican y transforman en un datamart y datawarehouse. Tener un área común facilita el procedimiento y posterior integración de los datos.
- Capa ETL: Aquí es donde los datos obtienen su inteligencia cuando se aplica la lógica para transformar los datos de una naturaleza transaccional a una naturaleza analítica. Esta capa además es donde se limpian los datos. La etapa de diseño de ETL es a menudo la etapa que necesita más tiempo de un proyecto de almacén de datos y una herramienta ETL se utiliza comúnmente en esta capa.
- Capa de almacenamiento de datos: Aquí es donde se colocan los datos transformados limpios. Según el alcance y la funcionalidad, se pueden hallar tres tipos de entidades: almacén de datos, despensa de datos y almacén de datos operativos (ODS). En cualquier sistema, puede hallar solo uno de los 3, 2 de los 3 o los tres tipos juntos.
- Capa de datos lógicos: Aquí es donde se almacenan las reglas comerciales. Estas reglas comerciales no impactan las reglas de transformación de datos, pero sí impactan lo que puede ver más adelante en los informes.
- Capa de presentación de datos: Se refiere a la data que llega a los usuarios. Esto puede ser en forma de un reporte tabular o gráfico por medio de un navegador, un reporte enviado por email que se genera automáticamente y se envía a diario, una alerta que advierte a los usuarios de las excepciones, etc. Por lo general, en esta capa una herramienta OLAP y una herramienta de informes son usados.
- Capa de metadatos: Aquí es donde se almacena la información sobre los datos almacenados en el almacén de datos. Un modelo de datos lógicos sería un ejemplo de algo que se encuentra en esta capa de metadatos. A menudo se utiliza una herramienta de metadatos para administrar metadatos.
- Capa de operaciones del sistema: Esta capa incluye información acerca de cómo está funcionando el sistema de almacenamiento de datos, cuál es el estado de funcionamiento de ETL, cuál es el rendimiento del sistema y el historial de acceso de los usuarios.
(function(d, s, id) {
var js, fjs = d.getElementsByTagName(s)[0];
if (d.getElementById(id)) return;
js = d.createElement(s); js.id = id;
js.src = «//connect.facebook.net/es_ES/all.js#xfbml=1&status=0»;
fjs.parentNode.insertBefore(js, fjs);
}(document, ‘script’, ‘facebook-jssdk’));