Die erste Säule einer Datenqualitätslösung: Architektur-Technologie

Inhalt

Bildschirmfoto 2014 03 24 bei 16.15.48

Aus betriebswirtschaftlicher Sicht, Eine Datenqualitätslösung basiert auf vier Säulen: Technologie, Fachwissen, Prozesse und Methodik. Schauen wir uns den ersten genauer an..

Sicherlich, Technologie ist aufgrund ihrer intrinsischen Funktionalitäten unerlässlich, kontinuierliche Verbesserung neuer Funktionen, die angebotene Unterstützung, etc., Generierung von Effizienz in Bezug auf Entwicklungszeiten und eine sehr deutliche Kostenreduktion.

Die in einer Datenqualitätslösung zu verwendende Architektur besteht aus mehreren Komponenten und, zur selben Zeit, jede dieser Komponenten ist darauf spezialisiert, spezifische effiziente Lösungen anzubieten.

In dieser Ansicht, einfach, Das erste, was wir brauchen, ist ein Modul, das uns eine vollständige Vorstellung davon gibt, wie unsere Datenbank in Bezug auf die Hauptattribute der Daten aussieht..

Dann, wir brauchen ein Modul, mit dem wir Geschäftsregeln für die in unserer Datenbank gefundenen Fehler entwickeln können. Dieses Modul muss mit zwei weiteren Untermodulen abgeschlossen werden: die doppelte Kennung und die phonetische Kennung.

Zur selben Zeit, die Architektur muss auch die echten Wörterbücher liefern, verwendet werden, um Varianten eines Namens automatisch durch Ihren echten Namen zu identifizieren und zu ersetzen.

Und zum Abschluss, und vielleicht das wichtigste Modul, Es ist die Firewall, die verhindert, dass neue fehlerhafte Daten erneut in die Systeme eindringen, denn ohne sie würde ein Datenqualitätsprojekt keinen Sinn machen.

DQ-Techniken

DQ ist eine Familie von acht oder mehr verbundenen Techniken. Datenstandardisierung ist die am häufigsten verwendete Methode, gefolgt von Verifizierungen, Validierungen, Überwachung, Profilierung, Vergleich, etc.

Institutionen wenden in der Regel nur eine Technik an, manchmal ein paar davon, und im Allgemeinen in einem einzigen Datentyp. Am gebräuchlichsten ist die Namens- und Adressbereinigung, die auf direkte Kontaktdatensätze angewendet wird, auch wenn es kaum auf Datensätze außerhalb von Direktmarketing-Kampagnen zutrifft.

Ähnlich, Deduplizierungstechniken, Vereinigung und Bereicherung werden außerhalb des häuslichen Kontexts selten angewendet.

Viele DQs konzentrieren sich ausschließlich auf die Datendomäne des Kunden. Die Realität ist, dass auch andere Bereiche verbessert werden könnten, als Produkte, Finanzdaten, Partner, Mitarbeiter und Standorte.

Die aktuellen Projekte von DQ sind eine Art Qualitätsdrehscheibe, die den Datenaustausch über verschiedene Anwendungen unterstützt, grundlegende Aggregationsfunktionen unterstützen müssen, Standardisierung, Identitätsauflösung, etc., in Echtzeit.

DQ in Echtzeit

Die schrittweise Migration in den Echtzeitbetrieb ist der aktuelle Trend im Datenmanagement. Dazu gehören die Datendisziplinen des Datenqualitätsmanagements, Datenintegration, Stammdatenverwaltung und komplexe Ereignisverarbeitung.

Dazwischen, Echtzeit-Qualitätsmanagement an zweiter Stelle im Wachstum, nach MDM und kurz vor der Integration.

Beschleunigte Geschäftsprozesse erfordern eine Datenbereinigung und -vervollständigung, sobald die Daten erstellt oder geändert werden, um den Kundenservice zu unterstützen, Lieferung am nächsten Tag, Betriebs-BI, Finanztransaktionen, Cross-Selling und Up-Selling und Sell. Marketingkampagnen.

Ähnlich, diese gleichen Prozesse erfordern einen Datenaustausch in Echtzeit zwischen mehreren Anwendungen mit sich überschneidenden Zuständigkeiten (als Beispiel, ein gemeinsamer Kundendatensatz zwischen ERP- und CRM-Anwendungen).

Für diese und andere Situationen, Echtzeit-Datenqualität reduziert das Geschäftsrisiko und korrigiert oder verbessert Informationen während der Bewegung in einem Geschäftsprozess.

Profilerstellung

Die kontinuierliche Verbesserung der Datenqualität ist eine Herausforderung, wenn Sie den aktuellen Stand Ihrer Daten und deren Nutzung nicht kennen.. Zur selben Zeit, Das Verständnis von Geschäftsdaten durch Profiling ist ein Ausgangspunkt für die Auswahl, welche Daten besondere Aufmerksamkeit erfordern.

Was ist Profiling?? Es handelt sich um eine Reihe von Techniken, um fehlerhafte Daten zu identifizieren, Nulldaten, unvollständige Daten, Daten ohne referenzielle Integrität, Daten, die nicht dem erforderlichen Format entsprechen, Geschäftsinformationsmuster, Trends, Medien, Standardabweichungen, etc.

Ein gutes Profil ist aus zwei Gründen wichtig: 1) die Projektanalyse ist realistisch und zuverlässig, Ja 2) wird es uns erlauben, ab der zweiten Iteration, die Entwicklung der Governance-Qualitätsindikatoren des Projekts messen und vergleichen.

In dieser Ansicht, damit Profiling zu einer unverzichtbaren Technik für DQ wird, muss bestimmte Anforderungen erfüllen:

Es muss wiederverwendbar sein

Profiling konzentriert sich im Allgemeinen darauf, Statistiken über die Datentypen und Werte einer einzelnen Spalte aus einer Tabelle in einer Datenbank zu generieren..

Trotz dieses, ein gutes Tool sollte die Abhängigkeiten zwischen mehreren Tabellen aufdecken, Datenbanken und Systeme.

Datenüberwachung

Datenverfolgung ist eine Form der Profilerstellung, da es bei jeder Nutzung den Grad des Qualitätsfortschritts misst. Dies ist der Schlüssel zur Bestätigung der kontinuierlichen Verbesserung der Daten.

Überwachung des Datenqualitätsverfahrens

Diese Funktion vergleicht Quelle und Ziel, um zu überprüfen, ob die Daten korrekt geladen wurden, was in jedem Datenqualitätsverfahren unerlässlich ist.

Architekturkomponenten

Die Architektur besteht aus mehreren Elementen. Analysieren wir sie:

Webdienste mit Datenqualität

Es handelt sich um eine Funktion zum Entwickeln von Webdiensten, die vom PowerCenter Web Services Hub aufgerufen werden, um Mappings aufzurufen, die Informatica Data Quality-Transformationen oder andere Prozesse oder Anwendungen enthalten, die diese Webdienste benennen. Der grundlegende Vorteil besteht darin, dass sie die Verwaltung der Informationen ermöglichen, die in die Systeme eingehen, Vermeidung von manueller Informationseingabe.

Identitätsauflösung

Bietet ein Wörterbuch der am häufigsten verwendeten Wörter des Landes, um den Jargon zu identifizieren und in Beziehung zu setzen.

AddressDoctor-Softwarebibliothek

Bietet Analysefunktionen, Reinigung, Adressvalidierung und -standardisierung, sowie Zuweisung von geografischen Koordinaten. Es ist das wesentliche Wahrheitswörterbuch, um zu vermeiden, dass Hunderte von Straßenvarianten im System vorhanden sind.

Datenexplorer

Bietet eine Client-Server-Umgebung für die dreidimensionale Profilerstellung (Säule, Tisch, Kreuztisch), verwaister Scan, Schlüsselvalidierung, Identifizierung und Kennzeichnung von Qualitätsproblemen.

Datenanalysator

Entwickelt, um zu analysieren, standardisieren, bereichern, deduplizieren, korrigieren und melden Sie alle Arten von Stammdaten, inklusive Kundendaten, Produkte, Vorräte, Vermögen und Finanzen. Ermöglicht die Entwicklung personalisierter Qualitätsregeln gemäß den spezifischen Bedürfnissen jedes Kunden.

Option zum Abgleich der Datenqualitätsidentität

Suchen anbieten, vergleicht und zeigt Duplikate von Daten an, die in relationalen Datenbanken und Flatfiles gespeichert sind.

Verwandter Beitrag:


Abonniere unseren Newsletter

Wir senden Ihnen keine SPAM-Mail. Wir hassen es genauso wie du.