Características de las herramientas ETL y su futuro en relación con Big Data

Share on facebook
Share on twitter
Share on linkedin
Share on telegram
Share on whatsapp

Contenidos

A Procedimiento ETL en tres etapas (Extracción, Transformación y Carga) y algunas Herramientas ETL la implementación adecuada de este concepto, son la solución a las necesidades que disponen las instituciones para administrar adecuadamente sus datos.


ETL_tools.jpg

Créditos fotográficos: viking75

Es sobre almacenar información de manera eficiente. Los datos no clasificados generan problemas al momento de encontrarlos. El usuario necesita saber qué datos gestiona, dónde se encuentran y cómo extraerlos.. Puede parecer que lo difícil es tomar decisiones sustentadas en los datos, pero no, la búsqueda de los datos en sí suele ser mucho más complicada.

Pero a pesar de esto, Las herramientas ETL son la solución a este problema.

¿Qué es un ETL?

El acrónimo ETL proviene de Extracting, Transforming, Loading, que describe muy bien la idea de lo que que es un ETL. El Herramientas ETL Fueron creados para impulsar y facilitar el almacenamiento de datos.

Para saber qué es un ETL, lo mejor es revisar como es un procedimiento ETL. Se trata de los siguientes pasos:

  1. Comienzo
  2. Construir datos de referencia
  3. Extracto de fuentes
  4. Validar
  5. Transformar
  6. Cargar en tablas
  7. Realizar informes de auditoría
  8. Publicar
  9. expediente
  10. Limpiar

A veces, estos pasos se supervisan y se realizan de forma indirecta, pero requieren mucho tiempo y es factible que el resultado no sea exacto. El propósito de utilizar herramientas ETL es ahorrar tiempo y hacer que todo el procedimiento sea más confiable.

¿Cuáles son las características clave tradicionales de las herramientas ETL?

Las herramientas ETL automatizan las operaciones de extracción de datos de los sistemas de origen, la transformación para usos analíticos y de procesamiento y la posterior carga en el destino. sea ​​cual sea el sistema seleccionado e independientemente del tipo de entorno que sea. Su intervención simplifica el procedimiento ETL en comparación con los scripts de integración manual en SQL u otros lenguajes de programación.

Para saber qué es un ETL, es necesario comprender la configuración interna, las capacidades y las características de las herramientas ETL.. Entre los más importantes, cabe resaltar los siguientes:

  • Compatibilidad con la integración de datos almacenados en sistemas locales y en la nube, incluidos los entornos de nube híbrida.
  • Capacidad para conectar y extraer datos de una gama de fuentes. tales como aplicaciones, bases de datos, sistemas de big data basados ​​en tecnologías como Hadoop y Spark y repositorios de archivos planos, entre otros.
  • Funciones de creación de perfiles de datos, que posibilitan realizar un análisis de la consistencia de los datos ya en origen y antes de iniciar el procedimiento ETL, pudiendo examinar además la existencia de dependencias y otros atributos de los datos.
  • Capacidades de desarrollo basados ​​en equipos que posibilitan una colaboración eficaz en iniciativas de integración.
  • Funciones de limpieza de calidad y datos, que aumentan su fiabilidad.
  • Capacidades para la sincronización de datos para mantener la coherencia entre los sistemas.
  • Capacidades de transformación de datos, que puede incluir todo, desde el reformateo hasta la conversión y desde la orquestación del flujo de trabajo hasta el mapeo de datos.
  • Soporte de administración de metadatos.

No confunda ETL con una definición equivalente, ELT, que invierte las etapas finales del procedimiento, realizando la carga antes de la transformación. Una opción que se encarga de la manipulación de los datos una vez que ya están en el sistema de destino.

Es una capacidad especialmente recomendado para aplicaciones de big data donde a menudo se cargan grandes volúmenes de datos sin procesar en Hadoop, Spark u otros repositorios, y después se filtran según las necesidades de los diferentes usos analíticos.

¿Pueden los macrodatos hacer desaparecer las herramientas ETL?

A corto plazo, Las herramientas ETL no desaparecerán, pero el enfoque de las herramientas ETL cambiará del «sitio a los datos».. Seguirá habiendo un lugar para las herramientas ETL, ya sea como herramientas ETL independientes o, con menos frecuencia, como herramientas ETL residuales de nivel medio.

Cada vez más, este modelo emergente necesita un repositorio central único para toda la información empresarial. Dicho de otra forma, un lugar para almacenamiento masivo. Esto puede ser Hadoop, Cassandra o Spark, funcionando como un sistema de archivos distribuido, o en realidad, un servicio de almacenamiento en la nube como S3. Además es necesario acentuar el movimiento de conjuntos de datos derivados más pequeños, desde este repositorio, a los sistemas fuente que lo componen.

El papel de las herramientas ETL seguirá creciendo, no solo en proporción al volumen de datos, sino además Además debería abarcar la explosión de variedad de datos que están causando los datos generados por máquinas.. Al mismo tiempo, con la necesidad de incrementar la velocidad de la toma de decisiones basada en análisis, la canalización de herramientas ETL debe pasar de la operación por lotes a lo más cerca factible del tiempo real.

Las herramientas ETL tradicionales y los proveedores de integración de datos como Informatica están adaptando sus productos y adaptando sus motores para utilizar Hadoop, Spark y otras plataformas de Big Data, y agregar la capacidad de mover datos dentro y fuera de Hadoop.

Suscribite a nuestro Newsletter

No te enviaremos correo SPAM. Lo odiamos tanto como tú.