Procesos ETL: Extracción, Transformación, Carga

Share on facebook
Share on twitter
Share on linkedin
Share on telegram
Share on whatsapp

Contenidos

iStock-521808958.jpg

Como te dijimos la semana pasada, el Procesos ETL Constan de tres fases: extracción, transformación y carga. Para cada uno de estos procesos es necesario conocer el funcionamiento y sus claves, pero es aún más decisivo comprender la medidas de seguridad y precauciones que se deben prestar atención al realizarlas, para evitar que las consecuencias afecten al sistema y su normal funcionamiento.

Los aspectos más importantes de cada uno de estos procesos se resumen a continuación.

1. Procedimiento de extracción

Para realizar correctamente la procedimiento de extracción, primera etapa de ETL, debes de seguir los siguientes pasos:

  • Extraer datos de sistemas fuente.
  • Analiza los datos extraídos obteniendo un cheque.
  • Interprete esta verificación para verificar que los datos extraídos cumplan con el patrón o estructura esperados. Caso contrario, los datos deben rechazarse.
  • Convierte los datos a un formato listo para iniciar el procedimiento de transformación.

Qué prestar atención a lo largo del procedimiento de extracción

Es necesario extremar las precauciones en este etapa del procedimiento ETL que es la extracción, por lo que se debe prestar atención que:

  • En el momento de extracción, análisis e interpretación: los formatos en los que datos o las formas en que se organizan pueden ser diferentes en cada sistema de forma separada, dado que la mayoría proyectos de almacenamiento de datos fusionar datos de diferentes sistemas fuente.
  • En el momento de conversión de datos: Debe recordarse que los formatos fuente se encuentran regularmente en bases de datos relacionales o archivos planos, pero pueden incluir bases de datos no relacionales u otras estructuras diferentes.

A pesar de esto, la medida más importante a considerar sería exigir siempre que la tarea de extracción cause un impacto mínimo en el sistema fuente. Este requisito se basa en la práctica, dado que, si los datos que se extraerán son grandes, el sistema de origen podría ralentizarse e inclusive colapsar, causando que ya no se utilice regularmente para el uso diario.

Para evitar este impacto y sus consecuencias, en grandes sistemas las operaciones de extracción suelen programarse en horarios o días en los que el interferencia con el sistema y su uso es nulo o mínimo.

2. Procedimiento de transformación

El etapa de transformación de un procedimiento ETL aplica una serie de reglas o funciones comerciales sobre los datos extraídos para convertirlos en datos que se cargarán. Estas pautas pueden ser declarativas, pueden basarse en excepciones o restricciones, pero para impulsar su pragmatismo y efectividad, asegúrese de que sean:

  • Declarativo.
  • Independiente
  • Claro.
  • Inteligible.
  • Con un propósito útil para el negocio.

El lado más práctico del procedimiento de transformación

A veces será necesario hacer un pequeño manipulación de datos, A pesar de esto, y siempre dependiendo de las fuentes de datos, en ocasiones lo que será necesario será aplicar alguna de las siguientes transformaciones:

  • Seleccione solo determinadas columnas para cargar (a modo de ejemplo, las columnas con valores nulos no se cargan).
  • Traducir códigos (a modo de ejemplo, si la fuente almacena una «H» para Hombre y una «M» para Mujer, pero el destino tiene que almacenar «1» para Hombre y «2» para Mujer).
  • Codifique valores libres (a modo de ejemplo, convierta «Male» en «H» o «Sr» en «1»).
  • Obtenga nuevos valores calculados (a modo de ejemplo, total_sale = cantidad * precio).
  • Unir datos de varias fuentes (a modo de ejemplo, búsquedas, uniones, etc.).
  • Calcule los totales de varias filas de datos (a modo de ejemplo, las ventas totales de cada región).
  • Genere campos clave en el destino.
  • Transponer o pivotar (rotar varias columnas en filas o viceversa).
  • Divida una columna en varias (a modo de ejemplo, columna «Nombre: García, Miguel»; muévase a dos columnas «Nombre: Miguel» y «Apellido: García»).
  • Solicitar para formas simples o complejas, la acción que en cada caso se requiera, como a modo de ejemplo:
    • Datos OK: entregar datos a la próxima etapa (etapa de carga).
    • Datos incorrectos: ejecute políticas de manejo de excepciones.

3. Procedimiento de carga

En esta etapa, los datos de la etapa anterior (etapa de transformación) se cargan en el sistema de destino. Dependiendo de los requerimientos de la organización, este procedimiento puede abarcar una amplia variedad de acciones diferentes. A modo de ejemplo, en algunas bases de datos será necesario sobrescribir la información antigua con datos nuevos, mientras que en otras bastará con resumir las transacciones y almacenar un promedio de la magnitud considerada.

El almacén de datos mantienen un historial de los registros, de modo que es factible auditarlos en cualquier momento. Esto le posibilita tener un seguimiento del historial completo de un valor a lo largo del tiempo.

Desarrollo del procedimiento de carga de datos

Dos existen formas básicas de desarrollar el procedimiento de carga:

  • Acumulación simple: esta forma de cargar los datos se trata de hacer un resumen de todas las transacciones comprendidas en el período de tiempo seleccionado y transportar el resultado como una única transacción al almacén de datos, almacenando un valor calculado que regularmente consistirá en una suma o un promedio de la magnitud considerada. Es la forma más sencilla y frecuente de realizar la Procedimiento de carga.
  • Laminación: este procedimiento sería el más recomendado en los casos en los que se busque mantener varios niveles de granularidad. Para esto, la información resumida se almacena en diferentes niveles, correspondientes a diferentes agrupaciones de la unidad de tiempo o diferentes niveles jerárquicos en una o más de las dimensiones de la cantidad almacenada (a modo de ejemplo, totales diarios, totales semanales, totales mensuales, etc.) .

Cualquiera que sea la forma de desarrollo de este procedimiento que se elija, se debe prestar atención que esta etapa interactúa de forma directa con la base de datos de destino y, por tanto, al realizar este procedimiento se aplicarán todas las restricciones que en ella se hayan definido. Si están bien definidos, los calidad de los datos en el procedimiento ETL estará garantizado.

Ejemplos de estas restricciones pueden ser:

  • Valores únicos.
  • Integridad referencial.
  • Campos requeridos.
  • Rangos de valores.

Posts Relacionados:

Suscribite a nuestro Newsletter

No te enviaremos correo SPAM. Lo odiamos tanto como tú.