Le premier pilier d'une solution de qualité des données: Architecture-Technologie

Contenu

Capture d'écran 2014 03 24 à 16.15.48

D'un point de vue commercial, une solution de qualité des données repose sur quatre piliers: La technologie, savoir-faire, processus et méthodologie. Regardons de plus près le premier..

Certainement, la technologie est essentielle en raison de ses fonctionnalités intrinsèques, amélioration continue des nouvelles fonctions, le soutien offert, etc., générant de l'efficacité en termes de temps de développement et une réduction des coûts très significative.

L'architecture à utiliser dans une solution de qualité des données est composée de plusieurs composants et, en même temps, chacun de ces composants est spécialisé dans l'offre de solutions efficaces spécifiques.

Dans cet aspect, simplement, La première chose dont nous avons besoin est un module qui nous donne une vision complète de ce à quoi ressemble notre base de données en ce qui concerne les principaux attributs des données..

Ensuite, nous avons besoin d'un module qui nous permette de développer des règles métier sur les défauts trouvés dans notre base de données. Ce module doit être complété par deux autres sous-modules: l'identifiant en double et l'identifiant phonétique.

En même temps, l'architecture doit aussi fournir les vrais dictionnaires, à utiliser pour identifier et remplacer automatiquement les variantes d'un nom par votre vrai nom.

Et pour finir, et peut-être le module le plus important, C'est le pare-feu qui empêchera de nouvelles données erronées d'entrer à nouveau dans les systèmes, car sans cela un projet de qualité des données n'aurait pas de sens.

Techniques de QD

DQ est une famille de huit techniques associées ou plus. La standardisation des données est la méthode la plus utilisée, suivi de vérifications, validations, surveillance, profilage, Comparaison, etc.

Les établissements n'appliquent généralement qu'une seule technique, parfois quelques-uns, et généralement dans un seul type de données. Le plus courant est le nettoyage du nom et de l'adresse appliqué aux ensembles de données de contact direct, même si cela ne s'applique guère aux ensembles de données en dehors des campagnes de marketing direct.

de la même manière, techniques de déduplication, l'unification et l'enrichissement rarement appliqués en dehors du contexte familial.

De nombreux DQ se concentrent uniquement sur le domaine de données du client. La réalité est que d'autres domaines pourraient également être améliorés, comme produits, données financières, les partenaires, travailleurs et lieux.

Les projets actuels de DQ sont une sorte de hub de qualité qui prend en charge l'échange de données via diverses applications, devoir prendre en charge les fonctions d'agrégation de base, standardisation, résolution d'identité, etc., temps réel.

DQ en temps réel

La migration progressive vers un fonctionnement en temps réel est la tendance actuelle en matière de gestion des données. Cela inclut les disciplines de données de gestion de la qualité des données, intégration de données, gestion des données de référence et traitement des événements complexes.

Entre ces, la gestion de la qualité en temps réel se classe au deuxième rang en termes de croissance, après MDM et juste avant l'intégration.

Les processus commerciaux accélérés nécessitent le nettoyage et l'achèvement des données dès que les données sont créées ou modifiées pour prendre en charge le service client, livraison le lendemain, BI opérationnelle, opérations financières, cross-sell et up-sell et vendre. Campagnes marketing.

de la même manière, ces mêmes processus nécessitent un échange de données en temps réel entre plusieurs applications avec des responsabilités qui se chevauchent (par exemple, une fiche client partagée entre les applications ERP et CRM).

Pour ces situations et d'autres, la qualité des données en temps réel réduit les risques commerciaux et corrige ou améliore les informations tout en étant en mouvement dans une procédure commerciale.

Profilage

L'amélioration continue de la qualité des données est un défi lorsque vous n'êtes pas au courant de l'état actuel de vos données et de leur utilisation.. En même temps, comprendre les données d'entreprise grâce au profilage est un point de départ pour choisir les données qui nécessitent une attention particulière.

Qu'est-ce que le profilage? C'est une série de techniques pour identifier les données erronées, données nulles, données incomplètes, données sans intégrité référentielle, données non conformes au format requis, modèles d'informations commerciales, les tendances, des médias, écarts types, etc.

Un bon profil est essentiel pour deux raisons: 1) l'analyse du projet est réaliste et fiable, Oui 2) nous permettra, à partir de la deuxième itération, mesurer et comparer l'évolution des indicateurs de qualité de gouvernance du projet.

Dans cet aspect, pour que le profilage devienne une technique incontournable pour DQ, doit répondre à certaines exigences:

Il doit être réutilisable

Le profilage est généralement axé sur la génération de statistiques sur les types de données et les valeurs d'une seule colonne à partir d'une table dans une base de données..

Malgré cela, un bon outil devrait révéler les dépendances entre plusieurs tables, bases de données et systèmes.

Surveillance des données

Le suivi des données est une forme de profilage, puisqu'à chaque utilisation il mesure le degré de progrès de la qualité. C'est la clé pour corroborer l'amélioration continue des données.

Supervision de la procédure de qualité des données

Cette fonction compare la source et la destination pour vérifier que les données sont chargées correctement, ce qui est essentiel dans toute procédure de qualité des données.

Composants architecturaux

L'architecture est composée de plusieurs éléments. Analysons-les:

Services Web de qualité des données

Il s'agit d'une fonction permettant de développer des services Web appelés à partir de PowerCenter Web Services Hub dans le but d'appeler des mappages contenant des transformations Informatica Data Quality ou d'autres processus ou applications qui nomment ces services Web.. L'avantage fondamental est qu'ils permettent de gérer les informations qui entrent dans les systèmes, éviter la saisie manuelle d'informations.

Résolution d'identité

Fournit un dictionnaire des mots les plus utilisés dans le pays pour identifier et relier le jargon.

Bibliothèque de logiciels AddressDoctor

Fournit des fonctions d'analyse, nettoyage, validation et standardisation des adresses, ainsi que l'attribution de coordonnées géographiques. C'est le dictionnaire de vérité essentiel pour éviter d'avoir des centaines de variantes de rue dans le système.

Explorateur de données

Fournit un environnement client-serveur pour le profilage en trois dimensions (colonne, tableau, table croisée), analyse orpheline, validation de clé, identification et étiquetage des problèmes de qualité.

Analyseur de données

Conçu pour analyser, standardiser, pour enrichir, dédupliquer, corriger et rapporter tous les types de données de base, y compris les données client, produits, inventaires, patrimoniale et financière. Permet l'élaboration de règles de qualité personnalisées en fonction des besoins spécifiques de chaque client.

Option de correspondance d'identité de qualité des données

Fournir des recherches, correspond et affiche des doublons de données stockées dans des bases de données relationnelles et des fichiers plats.

Article similaire:


Abonnez-vous à notre newsletter

Nous ne vous enverrons pas de courrier SPAM. Nous le détestons autant que vous.