Il primo pilastro di una soluzione per la qualità dei dati: Architettura-Tecnologia

Contenuti

Immagine dello schermo 2014 03 24 a 16.15.48

Dal punto di vista del business, Una soluzione per la qualità dei dati si basa su quattro pilastri: tecnologia, know-how, Processi e metodologia. Diamo un'occhiata più da vicino al primo.

Certamente, La tecnologia è fondamentale per le sue funzionalità intrinseche, miglioramento continuo di nuove funzioni, Il supporto offerto, eccetera., generare efficienza rispetto ai tempi di sviluppo e una riduzione dei costi molto significativa.

L'architettura da utilizzare in una soluzione di qualità dei dati è costituita da diversi componenti e, allo stesso tempo, Ognuno di questi componenti è specializzato nell'offrire soluzioni specifiche ed efficienti.

In questo aspetto, semplicemente, La prima cosa di cui abbiamo bisogno è un modulo che ci dia una visione completa di come è il nostro database rispetto agli attributi principali dei dati..

Prossimo, Abbiamo bisogno di un modulo che ci permetta di sviluppare regole di business sui difetti riscontrati nel nostro database. Questo modulo deve essere completato con altri due sottomoduli: L'identificatore duplicato e l'identificatore fonetico.

Allo stesso tempo, L'architettura deve anche fornire dizionari di verità, che verrà utilizzato per identificare e sostituire automaticamente le varianti di un nome con il tuo vero nome.

E per finire, e forse il modulo più importante, è il firewall che impedirà ai nuovi dati errati di rientrare nei sistemi, poiché senza di esso un progetto di qualità dei dati non avrebbe senso.

Tecniche DQ

DQ è una famiglia di otto o più tecniche associate. La standardizzazione dei dati è il metodo più utilizzato, seguite da verifiche, Convalide, monitoraggio, profilazione, confronto, eccetera.

Le istituzioni generalmente applicano una sola tecnica, a volte un paio di loro, e generalmente in un singolo tipo di dati. Il più comune è la pulizia di nomi e indirizzi applicata ai set di dati dei contatti diretti., anche se difficilmente si applica ai set di dati al di fuori delle campagne di marketing diretto.

Allo stesso modo, Tecniche di deduplicazione, L'unificazione e l'arricchimento sono raramente applicati al di fuori del contesto della casa..

Molti DQ si concentrano esclusivamente sul dominio dei dati dei clienti. La realtà è che anche altri settori potrebbero essere migliorati., come prodotti, dati finanziari, partner, Lavoratori & Sedi.

I progetti attuali di DQ sono una sorta di hub di qualità che supporta lo scambio di dati attraverso varie applicazioni., Dover supportare funzioni di aggregazione di base, standardizzazione, Risoluzione dell'identità, eccetera., in tempo reale.

DQ in tempo reale

La migrazione graduale al funzionamento in tempo reale è l'attuale tendenza nella gestione dei dati. Ciò include le discipline di gestione dei dati della gestione della qualità dei dati, integrazione dei dati, Gestione dei dati master ed elaborazione di eventi complessi.

Tra questi, La gestione della qualità in tempo reale è al secondo posto per crescita, dopo MDM e poco prima dell'integrazione.

I processi aziendali accelerati richiedono la pulizia e il completamento dei dati non appena i dati vengono creati o modificati per supportare il servizio clienti, Consegna il giorno successivo, BI operativa, Operazioni finanziarie, cross-selling e up-selling e upselling. Campagne di marketing.

Allo stesso modo, Questi stessi processi richiedono lo scambio di dati in tempo reale tra più applicazioni con responsabilità sovrapposte. (come esempio, un record cliente condiviso tra la pianificazione delle risorse aziendali e le applicazioni CRM).

Per queste e altre situazioni, La qualità dei dati in tempo reale riduce i rischi aziendali e corregge o migliora le informazioni durante gli spostamenti in una procedura aziendale.

Profilatura

Il miglioramento continuo della qualità dei dati è una sfida quando non si è a conoscenza dello stato attuale dei dati e del loro utilizzo. Allo stesso tempo, La comprensione dei dati aziendali attraverso la profilazione è un punto di partenza per scegliere quali dati richiedono particolare attenzione.

Cos'è la profilazione?? Si tratta di una serie di tecniche per identificare dati errati, Null data, Dati incompleti, Dati senza integrità referenziale, Dati non conformi al formato richiesto, Modelli di informazioni aziendali, tendenze, Metà, Deviazioni standard, eccetera.

Un buon profilo è essenziale per due motivi: 1) L'analisi del progetto è realistica e affidabile, e 2) Ci permetterà di, dalla seconda iterazione, Misurare e confrontare l'evoluzione degli indicatori di qualità della governance del progetto.

In questo aspetto, in modo che la profilazione diventi una tecnica essenziale per DQ, deve soddisfare determinati requisiti:

Deve essere riutilizzabile

La profilazione generale è incentrata sulla generazione di statistiche sui tipi di dati e sui valori di una singola colonna in una tabella in un database.

Nonostante questo, Un buon strumento dovrebbe rivelare le dipendenze tra più tabelle, Database e sistemi.

Monitoraggio dei dati

Il tracciamento dei dati è una forma di profilazione, poiché ogni volta che viene utilizzato misura il grado di progresso nella qualità. Questa è la chiave per corroborare il miglioramento continuo dei dati.

Monitoraggio della procedura di qualità dei dati

Questa funzione confronta l'origine e la destinazione per verificare che i dati siano caricati correttamente, che è essenziale in qualsiasi procedura di qualità dei dati.

Componenti dell'architettura

L'architettura è composta da diversi elementi. Analizziamoli:

Servizi Web per la qualità dei dati

Si tratta di una funzione per lo sviluppo di servizi Web chiamati dall'hub dei servizi Web PowerCenter allo scopo di richiamare mapping contenenti trasformazioni da Informatica Data Quality o da altri processi o applicazioni che chiamano questi servizi Web. Il vantaggio fondamentale è che consentono di gestire le informazioni che entrano nei sistemi., Evitare l'inserimento manuale delle informazioni.

Risoluzione delle identità

Fornisce un dizionario delle parole più comunemente usate nel paese per identificare e correlare lo slang.

Libreria software AddressDoctor

Fornisce funzioni di analisi, pulizia, Convalida e standardizzazione degli indirizzi, nonché assegnazione delle coordinate geografiche. È il dizionario della verità essenziale per evitare di avere centinaia di varianti stradali nel sistema.

esploratore di dati

Fornisce un ambiente client-server per tre dimensioni di profilatura (colonna, tavolo, Tabella incrociata), scansione orfana, Convalida delle chiavi, Identificazione ed etichettatura dei problemi di qualità.

Analizzatore di dati

Progettato per l'analisi, standardizzare, arricchire, deduplicare, Correggere e segnalare tutti i tipi di dati anagrafici, Inclusione dei dati dei clienti, prodotti, inventari, Attività e dati finanziari. Consente lo sviluppo di regole di qualità personalizzate in base alle esigenze specifiche di ogni cliente.

Opzione di corrispondenza dell'identità Data Quality

Fornisce ricerche, Confronta e visualizza i dati duplicati archiviati in database relazionali e file flat.

Articolo correlato:


Iscriviti alla nostra Newsletter

Non ti invieremo posta SPAM. Lo odiamo quanto te.