Processi ETL: Estrazione, Trasformazione, Carico

Contenuti

iStock-521808958.jpg

Como te dijimos la semana pasada, il Processi ETL Constan de tres fases: estrazione, trasformazione e caricamento. Para cada uno de estos procesos es necesario conocer el funcionamiento y sus claves, pero es aún más decisivo comprender la medidas de seguridad y precauciones que se deben prestar atención al realizarlas, para evitar que las consecuencias afecten al sistema y su normal funcionamiento.

Los aspectos más importantes de cada uno de estos procesos se resumen a continuación.

1. Procedimiento de extracción

Para realizar correctamente la Procedura di rimozione, primera etapa de ETL, debes de seguir los siguientes pasos:

  • Extraer datos de sistemas fuente.
  • Analiza los datos extraídos obteniendo un cheque.
  • Interprete esta verificación para verificar que los datos extraídos cumplan con el patrón o estructura esperados. Caso opposto, los datos deben rechazarse.
  • Convierte los datos a un formato listo para iniciar el procedimiento de transformación.

Qué prestar atención a lo largo del procedimiento de extracción

Es necesario extremar las precauciones en este etapa del procedimiento ETL que es la extracción, por lo que se debe prestar atención que:

  • Al momento di estrazione, análisis e interpretación: los formatos en los que dati o las formas en que se organizan pueden ser diferentes en cada sistema de forma separada, dado que la mayoría proyectos de almacenamiento de datos fusionar datos de diferentes sistemas fuente.
  • Al momento di conversión de datos: Debe recordarse que los formatos fuente se encuentran regularmente en bases de datos relacionales o archivos planos, pero pueden incluir bases de datos no relacionales u otras estructuras diferentes.

Nonostante questo, il misura más importante a considerar sería exigir siempre que la tarea de extracción cause un impacto mínimo en el sistema fuente. Este requisito se basa en la práctica, dato che, si los datos que se extraerán son grandes, el sistema de origen podría ralentizarse e inclusive colapsar, causando que ya no se utilice regularmente para el uso diario.

Para evitar este impacto y sus consecuencias, en grandes sistemas las operaciones de extracción suelen programarse en horarios o días en los que el interferencia con el sistema y su uso es nulo o mínimo.

2. Procedimiento de transformación

Il etapa de transformación de un procedimiento ETL aplica una serie de reglas o funciones comerciales sobre los datos extraídos para convertirlos en datos que se cargarán. Estas pautas pueden ser declarativas, pueden basarse en excepciones o restricciones, pero para impulsar su pragmatismo y efectividad, asegúrese de que sean:

  • Declarativo.
  • Independiente
  • Certo.
  • Inteligible.
  • Con un propósito útil para el negocio.

El lado más práctico del procedimiento de transformación

A veces será necesario hacer un pequeño manipolazione di dati, Nonostante questo, y siempre dependiendo de las fuentes de datos, en ocasiones lo que será necesario será aplicar alguna de las siguientes transformaciones:

  • Seleccione solo determinadas columnas para cargar (come esempio, las columnas con valores nulos no se cargan).
  • Traducir códigos (come esempio, si la fuente almacena una “h” para Hombre y una “m” para Mujer, pero el destino tiene que almacenar “1” para Hombre y “2” para Mujer).
  • Codifique valores libres (come esempio, convierta “Maschio” Su “h” oh “Sr” Su “1”).
  • Obtenga nuevos valores calculados (come esempio, total_sale = cantidad * prezzo).
  • Unir datos de varias fuentes (come esempio, ricerche, sindacati, eccetera.).
  • Calcule los totales de varias filas de datos (come esempio, las ventas totales de cada región).
  • Genere campos clave en el destino.
  • Transponer o pivotar (rotar varias columnas en filas o viceversa).
  • Divida una columna en varias (come esempio, colonna “Nome: García, Miguel”; muévase a dos columnas “Nome: Miguel” e “Apellido: García”).
  • Solicitar para formas simples o complejas, la acción que en cada caso se requiera, come esempio:
    • Datos OK: entregar datos a la próxima etapa (etapa de carga).
    • Datos incorrectos: ejecute políticas de manejo de excepciones.

3. Procedura di caricamento

In questa fase, los datos de la etapa anterior (etapa de transformación) se cargan en el sistema de destino. Dependiendo de los requerimientos de la organización, este procedimiento puede abarcar una amplia variedad de acciones diferentes. Come esempio, en algunas bases de datos será necesario sobrescribir la información antigua con datos nuevos, mientras que en otras bastará con resumir las transacciones y almacenar un promedio de la magnitud considerada.

Il data warehouse mantienen un historial de los registros, de modo que es factible auditarlos en cualquier momento. Esto le posibilita tener un seguimiento del historial completo de un valor a lo largo del tiempo.

Desarrollo del procedimiento de carga de datos

Dos existen formas básicas de desarrollar el procedimiento de carga:

  • Acumulación simple: esta forma de cargar los datos se trata de hacer un resumen de todas las transacciones comprendidas en el período de tiempo seleccionado y transportar el resultado como una única transazione al data warehouse, almacenando un valor calculado que regularmente consistirá en una suma o un promedio de la magnitud considerada. Es la forma más sencilla y frecuente de realizar la Procedura di caricamento.
  • Laminación: este procedimiento sería el más recomendado en los casos en los que se busque mantener varios niveles de granularidad. Per questo, la información resumida se almacena en diferentes niveles, correspondientes a diferentes agrupaciones de la unidad de tiempo o diferentes niveles jerárquicos en una o más de las dimensiones de la cantidad almacenada (come esempio, totales diarios, totales semanales, totales mensuales, eccetera.) .

Cualquiera que sea la forma de desarrollo de este procedimiento que se elija, se debe prestar atención que esta etapa interactúa de forma directa con la Banca dati de destino y, perciò, al realizar este procedimiento se aplicarán todas las restricciones que en ella se hayan definido. Si están bien definidos, il calidad de los datos en el procedimiento ETL estará garantizado.

Ejemplos de estas restricciones pueden ser:

  • Sono progettati per il filtraggio incrociato ad alte prestazioni tra le tabelle.
  • Integridad referencial.
  • Campos requeridos.
  • Rangos de valores.

Articoli correlati:

Iscriviti alla nostra Newsletter

Non ti invieremo posta SPAM. Lo odiamo quanto te.