Processos ETL: Extração, Transformação, Carga

Conteúdo

iStock-521808958.jpg

Como te dijimos la semana pasada, a Processos ETL Constan de tres fases: Extração, transformação e carregamento. Para cada uno de estos procesos es necesario conocer el funcionamiento y sus claves, pero es aún más decisivo comprender la medidas de seguridad y precauciones que se deben prestar atención al realizarlas, para evitar que las consecuencias afecten al sistema y su normal funcionamiento.

Los aspectos más importantes de cada uno de estos procesos se resumen a continuación.

1. Procedimiento de extracción

Para realizar correctamente la procedimiento de extracción, primera etapa de ETL, debes de seguir los siguientes pasos:

  • Extraer datos de sistemas fuente.
  • Analiza los datos extraídos obteniendo un cheque.
  • Interprete esta verificación para verificar que los datos extraídos cumplan con el patrón o estructura esperados. Caso contrário, los datos deben rechazarse.
  • Convierte los datos a un formato listo para iniciar el procedimiento de transformación.

Qué prestar atención a lo largo del procedimiento de extracción

Es necesario extremar las precauciones en este etapa del procedimiento ETL que es la extracción, por lo que se debe prestar atención que:

  • En el momento de Extração, análisis e interpretación: los formatos en los que dados o las formas en que se organizan pueden ser diferentes en cada sistema de forma separada, dado que la mayoría proyectos de almacenamiento de datos fusionar datos de diferentes sistemas fuente.
  • En el momento de conversión de datos: Debe recordarse que los formatos fuente se encuentran regularmente en bases de datos relacionales o archivos planos, pero pueden incluir bases de datos no relacionales u otras estructuras diferentes.

Apesar disto, a medir más importante a considerar sería exigir siempre que la tarea de extracción cause un impacto mínimo en el sistema fuente. Este requisito se basa en la práctica, dado que, si los datos que se extraerán son grandes, el sistema de origen podría ralentizarse e inclusive colapsar, causando que ya no se utilice regularmente para el uso diario.

Para evitar este impacto y sus consecuencias, en grandes sistemas las operaciones de extracción suelen programarse en horarios o días en los que el interferencia con el sistema y su uso es nulo o mínimo.

2. Procedimiento de transformación

o etapa de transformación de un procedimiento ETL aplica una serie de reglas o funciones comerciales sobre los datos extraídos para convertirlos en datos que se cargarán. Estas pautas pueden ser declarativas, pueden basarse en excepciones o restricciones, pero para impulsar su pragmatismo y efectividad, asegúrese de que sean:

  • Declarativo.
  • Independiente
  • Claro.
  • Inteligible.
  • Con un propósito útil para el negocio.

El lado más práctico del procedimiento de transformación

A veces será necesario hacer un pequeño Manipulação de dados, Apesar disto, y siempre dependiendo de las fuentes de datos, en ocasiones lo que será necesario será aplicar alguna de las siguientes transformaciones:

  • Seleccione solo determinadas columnas para cargar (como um exemplo, las columnas con valores nulos no se cargan).
  • Traducir códigos (como um exemplo, si la fuente almacena una “H” para Hombre y una “M” para Mujer, pero el destino tiene que almacenar “1” para Hombre y “2” para Mujer).
  • Codifique valores libres (como um exemplo, convierta “Masculino” sobre “H” o “Sr” sobre “1”).
  • Obtenga nuevos valores calculados (como um exemplo, total_sale = cantidad * preço).
  • Unir datos de varias fuentes (como um exemplo, búsquedas, sindicatos, etc.).
  • Calcule los totales de varias filas de datos (como um exemplo, las ventas totales de cada región).
  • Genere campos clave en el destino.
  • Transponer o pivotar (rotar varias columnas en filas o viceversa).
  • Divida una columna en varias (como um exemplo, coluna “Nome: García, Miguel”; muévase a dos columnas “Nome: Miguel” e “Apellido: García”).
  • Solicitar para formas simples o complejas, la acción que en cada caso se requiera, como um exemplo:
    • Datos OK: entregar datos a la próxima etapa (etapa de carga).
    • Datos incorrectos: ejecute políticas de manejo de excepciones.

3. Procedimiento de carga

Nesta fase, los datos de la etapa anterior (etapa de transformación) se cargan en el sistema de destino. Dependiendo de los requerimientos de la organización, este procedimiento puede abarcar una amplia variedad de acciones diferentes. Como um exemplo, en algunas bases de datos será necesario sobrescribir la información antigua con datos nuevos, mientras que en otras bastará con resumir las transacciones y almacenar un promedio de la magnitud considerada.

o Armazem de dados mantienen un historial de los registros, de modo que es factible auditarlos en cualquier momento. Esto le posibilita tener un seguimiento del historial completo de un valor a lo largo del tiempo.

Desarrollo del procedimiento de carga de datos

Dos existen formas básicas de desarrollar el procedimiento de carga:

  • Acumulación simple: esta forma de cargar los datos se trata de hacer un resumen de todas las transacciones comprendidas en el período de tiempo seleccionado y transportar el resultado como una única transação al Armazem de dados, almacenando un valor calculado que regularmente consistirá en una suma o un promedio de la magnitud considerada. Es la forma más sencilla y frecuente de realizar la Procedimiento de carga.
  • Laminación: este procedimiento sería el más recomendado en los casos en los que se busque mantener varios niveles de granularidad. Para isto, la información resumida se almacena en diferentes niveles, correspondientes a diferentes agrupaciones de la unidad de tiempo o diferentes niveles jerárquicos en una o más de las dimensiones de la cantidad almacenada (como um exemplo, totales diarios, totales semanales, totales mensuales, etc.) .

Cualquiera que sea la forma de desarrollo de este procedimiento que se elija, se debe prestar atención que esta etapa interactúa de forma directa con la base de dados de destino y, por tanto, al realizar este procedimiento se aplicarán todas las restricciones que en ella se hayan definido. Si están bien definidos, a calidad de los datos en el procedimiento ETL estará garantizado.

Ejemplos de estas restricciones pueden ser:

  • Valores únicos.
  • Integridade referencial.
  • Campos requeridos.
  • Rangos de valores.

Postagens Relacionadas:

Assine a nossa newsletter

Nós não enviaremos SPAM para você. Nós odiamos isso tanto quanto você.