Todos Procesos ETL Constan de tres fases diferentes:
1) Extracción.
2) Transformación.
3) Carga.
A estas tres partes debe agregarse la etapa de limpieza que, como hemos comentado, se entiende en este momento como una parte separada del propio procedimiento.
A continuación, vamos a explicar los principales aspectos del funcionamiento de cada una de las fases, así como sus claves y cuestiones a considerar en su planteamiento e implementación.
Los diferentes pasos del procedimiento de extracción.
La primera parte del procedimiento ETL es extraer los datos del sistema de origen. Esta etapa consta de tres pasos:
Análisis previo de necesidades. Regularmente, existe una primera etapa de análisis donde se evalúan las necesidades específicas de la organización en términos de movimiento y transformación de datos. En general, no comienzas extrayendo toda la información, sino que comienzas con el tratamiento de datos específicos según una necesidad específica y después se hacen extensiones a medida que se van necesitando.
Identificación de archivo. Antes de extraer los datos, se identifica qué tipo y en qué formato son los sistemas fuente. A modo de ejemplo, si se trata de bases de datos relacionales o no relacionales, archivos planos, archivos complejos, archivos VSAM, WebServices, Marco principal, Archivos de Excel, etc. Regularmente, los datos de los sistemas de origen provienen de diferentes formatos, que deberán fusionarse.
Extracción de datos. Dependiendo de las necesidades detectadas, se extraen los datos en sí.
Modos de extracción
Simplemente, hay tres modos diferentes de extracción. El tipo de necesidad de la organización es lo que, regularmente, determinará la elección de una forma u otra.
Extracto completo o extracción total
Este método se trata de extraer todos los datos. En esta circunstancia, se barren tablas completas que pueden tener millones de registros.
Extracto incremental o extracción incremental
Solo lo que se modificó o agregó se procesa en lotes. Además puede haber filas que se eliminen por estar duplicadas, datos incorrectos, etc.
Notificación de actualización o notificación de actualización
En esta circunstancia, los datos solo se extraen cuando se produce una actualización (a modo de ejemplo, una inserción).
Estos tres tipos de extracción son manejados por un módulo llamado Captura de datos modificados (CENTROS PARA EL CONTROL Y LA PREVENCIÓN DE ENFERMEDADES).
Claves del procedimiento de extracción
El procedimiento de extracción ideal es el que apenas se nota.
Cualquier organización, compañía o compañía debe exigir que el procedimiento de extracción de datos de su fuente o fuentes de origen provoque el menor impacto factible. Dicho de otra forma, no supone ningún problema para los trabajadores que trabajan con los datos y registros a diario.
La extracción de una cantidad demasiado grande de datos al mismo tiempo puede ralentizar e inclusive bloquear el sistema. Por ello, es esencial valorar muy bien las necesidades y alcance de la operación a realizar y, en su caso, realizar la operación de forma escalonada en bloques más pequeños y / o en las fechas y horarios más adecuados para lograr ese impacto mínimo.