El primer pilar de una solución de calidad de datos: Arquitectura-Tecnología

Share on facebook
Share on twitter
Share on linkedin
Share on telegram
Share on whatsapp

Contenidos

Captura de pantalla 2014 03 24 a las 16.15.48

Desde el punto de vista empresarial, una solución de calidad de datos se basa en cuatro pilares: tecnología, know-how, procesos y metodología. Echemos un vistazo más de cerca al primero.

Ciertamente, la tecnología es fundamental por sus funcionalidades intrínsecas, la mejora continua de nuevas funciones, el soporte ofrecido, etc., generando eficiencia con respecto a tiempos de desarrollo y una disminución de costes muy significativa.

La arquitectura a usar en una solución de calidad de datos está formada por varios componentes y, a su vez, cada uno de estos componentes está especializado en ofrecer soluciones eficientes específicas.

En este aspecto, simplemente, lo primero que necesitamos es un módulo que nos brinde una visión completa de cómo es nuestra base de datos con respecto a los principales atributos de los datos.

A continuación, necesitamos un módulo que nos permita desarrollar reglas de negocio sobre los defectos encontrados en nuestra base de datos. Este módulo debe completarse con dos submódulos más: el identificador duplicado y el identificador fonético.

Al mismo tiempo, la arquitectura además debe proporcionar los diccionarios de verdad, que se utilizarán para identificar y reemplazar las variantes de un nombre con su nombre real automáticamente.

Y para terminar, y tal vez el módulo más importante, es el cortafuegos que evitará que nuevos datos erróneos vuelvan a entrar en los sistemas, dado que sin él no tendría sentido un proyecto de calidad de datos.

Técnicas DQ

DQ es una familia de ocho o más técnicas asociadas. La estandarización de datos es el método más usado, seguido de las verificaciones, validaciones, monitoreo, elaboración de perfiles, comparación, etc.

Las instituciones de forma general aplican solo una técnica, a veces un par de ellas, y de forma general en un solo tipo de datos. El más común es la limpieza de nombre y dirección aplicada a conjuntos de datos de contacto directo, aún cuando difícilmente se aplica a conjuntos de datos fuera de las campañas de marketing directo.

De manera semejante, las técnicas de deduplicación, unificación y enriquecimiento rara vez se aplican fuera del contexto del hogar.

Muchas DQ se enfocan únicamente en el dominio de datos del cliente. La realidad es que además se podrían mejorar otras áreas, como productos, datos financieros, socios, trabajadores y ubicaciones.

Los proyectos actuales de DQ son una especie de hub de calidad que soporta el intercambio de datos por medio de diversas aplicaciones, teniendo que soportar funciones básicas de agregación, estandarización, resolución de identidades, etc., en tiempo real.

DQ en tiempo real

La migración gradual al funcionamiento en tiempo real es la tendencia actual en la administración de datos. Esto incluye las disciplinas de datos de administración de calidad de datos, integración de datos, administración de datos maestros y procesamiento de eventos complejos.

Entre estos, la administración de la calidad en tiempo real ocupa el segundo lugar en crecimiento, después de MDM y justo antes de la integración.

Los procesos comerciales acelerados requieren la limpieza y finalización de los datos tan pronto como se crean o modifican los datos para respaldar el servicio al cliente, la entrega al día siguiente, la BI operativa, las transacciones financieras, las ventas cruzadas y ascendentes y las ventas. Campañas de marketing.

De manera semejante, estos mismos procesos requieren el intercambio de datos en tiempo real entre múltiples aplicaciones con responsabilidades superpuestas (a modo de ejemplo, un registro de cliente compartido entre la planificación de recursos empresariales y las aplicaciones CRM).

Para estas y otras situaciones, la calidad de los datos en tiempo real reduce el riesgo empresarial y corrige o mejora la información mientras está en movimiento en un procedimiento empresarial.

Perfilado

La mejora continua de la calidad de los datos es un desafío cuando desconoce el estado actual de sus datos y su uso. Al mismo tiempo, comprender los datos comerciales por medio de la creación de perfiles es un punto de partida para elegir qué datos necesitan una atención especial.

¿Qué es la elaboración de perfiles? Es una serie de técnicas para identificar datos erróneos, datos nulos, datos incompletos, datos sin integridad referencial, datos que no se ajustan al formato requerido, patrones de información empresarial, tendencias, medias, desviaciones estándar, etc.

Un buen perfil es fundamental por dos motivos: 1) el análisis del proyecto es realista y fiable, y 2) nos permitirá, desde la segunda iteración, medir y comparar la evolución de los indicadores de calidad de gobernanza del proyecto.

En este aspecto, para que el perfilado se convierta en una técnica imprescindible para DQ, debe cumplir con ciertos requerimientos:

Debe ser reutilizable

La generación de perfiles de forma general se centra en generar estadísticas sobre los tipos de datos y valores de una sola columna de una tabla en una base de datos.

A pesar de esto, una buena herramienta debería revelar las dependencias entre varias tablas, bases de datos y sistemas.

Monitoreo de datos

El seguimiento de datos es una forma de elaboración de perfiles, dado que cada vez que se utiliza mide el grado de avance en la calidad. Esta es la clave para corroborar la mejora continua de los datos.

Supervisión del procedimiento de calidad de los datos

Esta función compara el origen y el destino para verificar que los datos se carguen correctamente, lo cual es imprescindible en cualquier procedimiento de calidad de datos.

Componentes de la arquitectura

La arquitectura se compone de varios ítems. Analicémoslos:

Servicios web de calidad de datos

Es una función para desarrollar servicios web que se llaman desde PowerCenter Web Services Hub con el propósito de invocar asignaciones que contienen transformaciones de Informatica Data Quality u otros procesos o aplicaciones que denominan estos servicios web. La ventaja fundamental es que posibilitan administrar la información que ingresa a los sistemas, evitando el ingreso de información manual.

Resolución de identidad

Proporciona un diccionario de las palabras más utilizadas en el país para identificar y relacionar la jerga.

Biblioteca de software AddressDoctor

Proporciona funciones de análisis, limpieza, validación y estandarización de direcciones, así como asignación de coordenadas geográficas. Es el diccionario de la verdad esencial para evitar tener cientos de variantes callejeras en el sistema.

Explorador de datos

Proporciona un entorno cliente-servidor para tres dimensiones de elaboración de perfiles (columna, tabla, tabla cruzada), análisis huérfano, validación de claves, identificación y etiquetado de problemas de calidad.

Analizador de datos

Diseñado para analizar, estandarizar, enriquecer, deduplicar, corregir e informar todos los tipos de datos maestros, incluidos los datos de clientes, productos, inventarios, activos y financieros. Posibilita el desarrollo de reglas de calidad personalizadas según las necesidades específicas de cada cliente.

Opción de coincidencia de identidad de calidad de datos

Proporciona búsquedas, coincidencias y muestra duplicados de datos almacenados en bases de datos relacionales y archivos planos.

Publicación relacionada:


Suscribite a nuestro Newsletter

No te enviaremos correo SPAM. Lo odiamos tanto como tú.