Entrepôt de données

Cycle de vie et normalisation d'une base de données dans le cadre du big data

Le Big Data présente de nouveaux défis de gestion des données qui vont au-delà de la gestion du Big Data. Un défi souvent négligé est le cycle de vie et la normalisation d'une base de données dans ce contexte de big data..

Crédits photos: iLexx

Gouvernance des données, à la fois de la source de données et de ses résultats, dans ce type de base de données présente de grands défis. Le comparaison du cycle de vie et normalisation d'une base de données traditionnelle avec le big data aide à comprendre l'un des des défis de gouvernance des données plus complexes dans ce nouveau monde de données.

Les étapes du cycle de vie des données

UNE cycle de vie des données typique consistera en quatre étapes:

Ingestion. je ne peux pas penser à lui cycle de vie et normalisation à partir d'une base de données sans commencer par le commencement, moment où les différentes sources de données sont intégrées dans la plateforme de données. A ce stade, il est également fréquent de trouver processus de vérification et de validation des données basique, même si l'essentiel en ce moment est d'effacer toutes les données disponibles dans un emplacement central (qui peut être un entrepôt de données, un entrepôt de données ou un lac de données).
identifiant / Nettoyage / Enrichissement. Les types de données et les noms sous lesquels ils apparaissent dans les colonnes sont reconnus. À ce stade, Les données peuvent également être enrichies et nettoyées.
Standardisation. Cette étape consiste à transformer les données en un modèle de données neutre agréé commercialement.. Ici, des relations sont établies entre les différentes entités de données, essentiellement coder les connaissances internes et la structure des données. Cette étape est également appelée étape d'intégration des données et coïncide avec le moment où les règles métier sont régulièrement introduites et vérifications de domaine, ainsi que la validation des données de référence ou de référence
Présentation. C'est la dernière étape de la procédure, lorsque la transformation du modèle économique neutre créé à l'étape précédente en une ou plusieurs représentations de données spécifiques à l'entreprise est terminée. Ce modèle est souvent appelé modèle dimensionnel.. Il est courant que des règles métier supplémentaires s'appliquent à ce stade, ainsi que des agrégations et la création de données dérivées.
Esquisse en lecture / décrire par écrit. Vous ne pouvez pas parler de l'ensemble du cycle de vie des données sans mentionner quand l'utilisateur les utilise. L'une des principales différences entre l'entreposage de données traditionnel et l'entreposage de données volumineuses est le point auquel l'utilisateur final interagit avec les informations.. Pour cela, dans un environnement de stockage de données traditionnel, le consommateur utiliserait généralement un schéma d'écriture bien défini, Les plateformes de BI et les solutions d'analyse avancées peuvent utiliser les données de la couche de présentation pour fournir rapports, tableaux de bord et analyses prédictives, permettant au consommateur de données d'accéder aux données beaucoup plus tôt.

Cycle de vie et normalisation d'une base de données dans des environnements Big Data

Lors de l'examen du cycle de vie et de la normalisation d'une base de données, tout ce qui touche à l'utilisation de l'information est déterminant, tant en termes de traitement que par rapport au coût du cycle de vie des données. Spécifiquement:

Et les mégadonnées, les deux premières étapes sont à volume élevé et à faible coût et effort.. Les données sont abondantes et bon marché, et l'ingestion, l'identification et le nettoyage des données sont relativement simples. Malgré cela, le défi réside dans la gestion du Big Data. La difficulté des deux derniers processus du cycle de vie et la normalisation d'une base de données est liée à la création de sens. d'un ensemble de données aussi volumineux et largement désorganisé (schéma de lecture).
Dans un cadre traditionnel, au contraire, l'entreposage de données nécessite un effort considérable pour assurer la qualité des données ingérées et transformer les données en modèles de données appropriés. (croquis écrit). Quelque chose qui s'étend à l'application cohérente des règles métier. Malgré cela, car tous les consommateurs ont la même vision de l'univers des données, les performances des requêtes sont assez élevées et les avantages de la capacité de requête des utilisateurs. La densité de valeur des données est beaucoup plus élevée que dans les environnements Big Data. Ici, chaque ligne a une valeur intrinsèque.

Enfin, en matière de cycle de vie et de standardisation d'une base de données, il faut faire attention à l'agilité. Et c'est quelque chose d'inhérent au big data. Bien que les entrepôts de données soient notoirement difficiles, long et coûteux à modifier, les consommateurs de données définissent leurs propres critères et calendriers dans un monde de mégadonnées.

(une fonction(ré, s, identifiant) {
var js, fjs = d.getElementsByTagName(s)[0];
si (d.getElementById(identifiant)) revenir;
js = d.createElement(s); js.id = identifiant;
js.src = “//connect.facebook.net/es_ES/all.js#xfbml=1&état=0”;
fjs.parentNode.insertAvant(js, fjs);
}(document, 'scénario', 'facebook-jssdk'));