Comme nous vous l'avons dit la semaine dernière, les Processus ETL Ils se composent de trois phases: extraction, transformation et chargement. Pour chacun de ces processus, il est nécessaire de connaître les fonctionnement et ses clés, mais il est encore plus décisif de comprendre le mesure de sécurité et les précautions à prendre en compte lors de leur réalisation, pour éviter que les conséquences n'affectent le système et son fonctionnement normal.
Les aspects les plus importants de chacun de ces processus sont résumés ci-dessous.
1. Procédure d'extraction
Pour effectuer correctement le procédure d'extraction, ETL première étape, vous devez suivre les étapes suivantes:
- Extraire les données des systèmes sources.
- Analyser les données extraites en obtenant un contrôle.
- Interprétez cette vérification pour vérifier que les données extraites correspondent au modèle ou à la structure attendus. Cas contraire, les données doivent être rejetées.
- Convertir les données dans un format prêt à démarrer la procédure de transformation.
À quoi faire attention tout au long de la procédure de retrait
Il est nécessaire de prendre des précautions extrêmes dans ce étape de la procédure ETL qui est l'extraction, donc tu devrais faire attention à ça:
- Au moment de extraction, analyse et interprétation: les formats dans lesquels Les données ou les manières dont elles sont organisées peuvent être différentes dans chaque système séparément, puisque la plupart projets d'entreposage de données fusionner les données de différents systèmes sources.
- Au moment de conversion de données: Rappelons que les formats sources se retrouvent régulièrement dans des bases de données relationnelles ou des fichiers plats., mais ils peuvent inclure des bases de données non relationnelles ou d'autres structures différentes.
Malgré cela, la mesureLa "mesure" C’est un concept fondamental dans diverses disciplines, qui fait référence au processus de quantification des caractéristiques ou des grandeurs d’objets, phénomènes ou situations. En mathématiques, Utilisé pour déterminer les longueurs, Surfaces et volumes, tandis qu’en sciences sociales, il peut faire référence à l’évaluation de variables qualitatives et quantitatives. La précision des mesures est cruciale pour obtenir des résultats fiables et valides dans toute recherche ou application pratique.... más importante a considerar sería exigir siempre que la tarea de extracción cause un impacto mínimo en el sistema fuente. Cette exigence est fondée sur la pratique, étant donné que, si les données à extraire sont volumineuses, le système source pourrait ralentir et même s'effondrer, l'amenant à ne plus être utilisé régulièrement pour un usage quotidien.
Pour éviter cet impact et ses conséquences, Dans les grands systèmes, les opérations d'extraction sont généralement programmées à des heures ou des jours où le interférence avec le système et son utilisation est nulle ou minimale.
2. Procédure de transformation
Le étape de transformation d'une procédure ETL applique une série de règles ou de fonctions métier sur les données extraites pour les convertir en données à charger. Ces directives peuvent être déclaratives, peut être basé sur des exceptions ou des restrictions, mais pour booster son pragmatisme et son efficacité, assurez-vous qu'ils sont:
- Déclaratif.
- Indépendant
- Bien sûr.
- Intelligible.
- Avec un objectif commercial utile.
Le côté le plus pratique de la procédure de transformation
Parfois, il sera nécessaire de faire un petit manipulation de données, Malgré cela, et toujours en fonction des sources de données, parfois il faudra appliquer l'une des transformations suivantes:
- Sélectionnez uniquement certaines colonnes à charger (par exemple, les colonnes avec des valeurs nulles ne sont pas chargées).
- Traduire les codes (par exemple, si la source stocke un “H” pour l'Homme et un “M” pour femme, mais le destin doit stocker “1” pour l'Homme et “2” pour femme).
- Encoder des valeurs libres (par exemple, convertir “Homme” dans “H” O “Sr” dans “1”).
- Obtenir de nouvelles valeurs calculées (par exemple, total_vente = montant * le prix).
- Joindre des données provenant de plusieurs sources (par exemple, recherches, syndicats, etc.).
- Calculer les totaux pour plusieurs lignes de données (par exemple, ventes totales pour chaque région).
- Générer des champs clés dans la destination.
- Transposer ou pivoter (faire pivoter plusieurs colonnes en lignes ou vice versa).
- Diviser une colonne en plusieurs (par exemple, colonne “nom: Garcia, Miguel”; passer à deux colonnes “nom: Miguel” Oui “Le nom: Garcia”).
- Demande de formes simples ou complexes, l'action requise dans chaque cas, par exemple:
- Données OK: fournir des données à l'étape suivante (étape de charge).
- Données incorrectes: exécuter des stratégies de gestion des exceptions.
3. Procédure de chargement
À ce stade, les données de l'étape précédente (étape de transformation) sont téléchargés sur le système cible. Selon les besoins de l'organisation, cette procédure peut couvrir une grande variété d'actions différentes. Par exemple, dans certaines bases de données, il sera nécessaire d'écraser les anciennes informations avec de nouvelles données, tandis que dans d'autres, il suffira de résumer les transactions et de stocker une moyenne de l'ampleur considérée.
Le entrepôt de données conserver un historique des dossiers, afin qu'il soit possible de les auditer à tout moment. Cela vous permet de suivre l'historique complet d'un titre au fil du temps..
Développement de la procédure de chargement des données
Deux existent méthodes de base pour développer la procédure de tarification:
- Cumul simple: esta forma de cargar los datos se trata de hacer un resumen de todas las transacciones comprendidas en el período de tiempo seleccionado y transportar el resultado como una única transactionLa "transaction" fait référence au processus par lequel un échange de biens a lieu, services ou argent entre deux ou plusieurs parties. Ce concept est fondamental dans le domaine économique et juridique, puisqu’il implique un accord mutuel et la prise en compte de conditions spécifiques. Les transactions peuvent être formelles, sous forme de contrats, ou informel, et sont essentielles au fonctionnement des marchés et des entreprises.... Al entrepôt de données, mémoriser une valeur calculée qui sera régulièrement constituée d'une somme ou d'une moyenne de la grandeur considérée. C'est le moyen le plus simple et le plus fréquent d'effectuer les Procédure de chargement.
- Laminage: Cette procédure serait la plus recommandée dans les cas où l'on cherche à maintenir différents niveaux de granularité. Pour ca, les informations récapitulatives sont stockées à différents niveaux, correspondant à différents regroupements de l'unité de temps ou à différents niveaux hiérarchiques dans une ou plusieurs des dimensions de la quantité stockée (par exemple, totaux quotidiens, totaux hebdomadaires, totaux mensuels, etc.) .
Quelle que soit la voie de développement de cette procédure choisie, se debe prestar atención que esta etapa interactúa de forma directa con la base de donnéesUne base de données est un ensemble organisé d’informations qui vous permet de stocker, Gérez et récupérez efficacement les données. Utilisé dans diverses applications, Des systèmes d’entreprise aux plateformes en ligne, Les bases de données peuvent être relationnelles ou non relationnelles. Une bonne conception est essentielle pour optimiser les performances et garantir l’intégrité de l’information, facilitant ainsi la prise de décision éclairée dans différents contextes.... de destino y, pourtant, Lors de l'exécution de cette procédure, toutes les restrictions qui y ont été définies seront appliquées. S'ils sont bien définis, Les qualité des données dans la procédure ETL sera garanti.
Des exemples de ces restrictions peuvent être:
- Valeurs uniques.
- Intégrité référentielle.
- Champs obligatoires.
- Plages de valeurs.
Articles Similaires: