La plupart des entreprises comprennent l'importance de déterminer et d'institutionnaliser un plan d'analyse des données qui contribue à améliorer la qualité des données de l'organisation. Malgré cela, certaines entreprises n'incluent pas cela dans leurs budgets et font simplement des investissements incrémentiels dans des choses comme le nettoyage et la correction des données. Et cela peut poser des problèmes.
L'absence de processus complets de gestion et de contrôle de la qualité des données entraîne des efforts répétés et des coûts plus élevés, ou pire encore, rend impossible la fourniture d'informations cohérentes à la communauté d'utilisateurs professionnels d'une organisation.
Ce qu'il faut, c'est une approche pratique pour aligner les diverses activités de qualité des données les unes avec les autres., créer un plan d'analyse des données organisé qui relève les défis d'assurer et de maintenir des niveaux élevés de qualité.
à côté de besoin d'attirer des sponsors internes qui soutiennent le projet, et le développement de arguments nécessaires pour aider les investissements Dans la qualité des données, Voyons une liste de cinq tâches et procédures qui sont essentielles pour une gestion efficace de la qualité des données et qui, ensemble, constituent un plan d'analyse des données efficace pour améliorer la qualité des données..
1. Documenter les exigences de qualité des données et établir des règles pour mesurer la qualité.
Dans la majorité des cas, les niveaux de qualité des données sont liés à l'utilité ou à l'adéquation des informations aux fins dont les administrateurs ont besoin.
Cela commence par la collecte des exigences: engagez ces décideurs à comprendre vos objectifs commerciaux et demandez-leur quelles sont leurs attentes en matière d'utilisation des données.
Cette information, combinées à des expériences partagées sur l'impact commercial des problèmes de qualité des données, peuvent être traduits en règles qui servent à mesurer les dimensions clés de la qualité, comme la cohérence des formats de données dans tous les formats de données. différents systèmes, intégrité des données, etc.
Dans le cadre de cette procédure, un système central devrait être créé pour documenter les exigences et les règles associées qui soutiennent le développement de mécanismes de validation des données.
2. Examiner de nouvelles données pour créer une base de référence de qualité
Une procédure reproductible pour l'évaluation statistique de la qualité des données nous aide à augmenter l'ensemble des règles de mesure de la qualité., vérifier les systèmes sources pour d'éventuelles anomalies dans la création de nouvelles données.
Les outils de profilage statistique et de données peuvent analyser les valeurs, colonnes et relations dans et entre les ensembles de données, en utilisant l'analyse de fréquence et d'association pour examiner les valeurs, formats de données et exhaustivité, et identifier les valeurs aberrantes qui peuvent indiquer des erreurs.
En même temps, Les outils de profilage peuvent fournir aux responsables de la qualité des données et de la gouvernance des informations sur des éléments tels que les types de données, la structure de la base de données relationnelle et les relations entre les clés primaires et étrangères dans les bases de données. Les données. Les résultats peuvent être partagés avec les gestionnaires pour aider à l'élaboration de règles de validation de la qualité des données qui sont incluses dans le plan d'analyse des données.
3. Mettre en œuvre des processus de gestion des métadonnées sémantiques.
À mesure que le nombre et la variété des sources de données augmentent, augmente la nécessité de limiter le risque que les utilisateurs finaux dans différentes parties d'une organisation interprètent mal le sens des termes commerciaux courants et d'autres concepts de données.
Il est nécessaire de centraliser la gestion des métadonnées pertinentes pour l'entreprise et d'impliquer les cadres et les professionnels de la gestion des données pour collaborer à l'établissement de normes d'entreprise de manière à réduire les situations où des interprétations incohérentes entraînent des problèmes d'utilisation des données..
4. Vérifier la validité des données en continu
Des services automatisés doivent être développés pour valider les enregistrements de données par rapport aux normes de qualité qui ont été définies dans notre plan d'analyse des données..
Une mise en œuvre stratégique permet de partager des normes et des mécanismes de validation via des applications et des mises en œuvre à divers points du flux d'informations d'une organisation, afin que l'inspection continue des données et la mesure de la qualité puissent être effectuées.
Les résultats peuvent être entrés dans une gamme de systèmes d'information, par exemple, alertes et notifications directes envoyées aux administrateurs de données, pour traiter les défauts et les anomalies de données hautement prioritaires, et des tableaux de bord de qualité des données et des tableaux de bord avec des métriques agrégées pour un public plus large.
5. Restez au courant des problèmes de qualité des données
Le plan d'analyse des données devrait inclure le développement d'une plate-forme d'enregistrement, suivi et gestion des incidents de qualité des données. L'évaluation de la conformité aux normes de qualité des données ne conduira à des améliorations que si des processus standard sont en place pour examiner et effacer les causes profondes des erreurs de données. Un système de gestion des incidents peut automatiser des processus tels que la création de rapports et la hiérarchisation des problèmes de qualité des données, alerter les parties prenantes, attribuer des tâches d'amélioration de la qualité des données et suivre la progression des efforts. de rectification.