Processus ETL: Extraction, Transformation, Charge

Contenu

iStock-521808958.jpg

Comme nous vous l'avons dit la semaine dernière, les Processus ETL Ils se composent de trois phases: extraction, transformation et chargement. Pour chacun de ces processus, il est nécessaire de connaître les fonctionnement et ses clés, mais il est encore plus décisif de comprendre le mesure de sécurité et les précautions à prendre en compte lors de leur réalisation, pour éviter que les conséquences n'affectent le système et son fonctionnement normal.

Les aspects les plus importants de chacun de ces processus sont résumés ci-dessous.

1. Procédure d'extraction

Pour effectuer correctement le procédure d'extraction, ETL première étape, vous devez suivre les étapes suivantes:

  • Extraire les données des systèmes sources.
  • Analyser les données extraites en obtenant un contrôle.
  • Interprétez cette vérification pour vérifier que les données extraites correspondent au modèle ou à la structure attendus. Cas contraire, les données doivent être rejetées.
  • Convertir les données dans un format prêt à démarrer la procédure de transformation.

À quoi faire attention tout au long de la procédure de retrait

Il est nécessaire de prendre des précautions extrêmes dans ce étape de la procédure ETL qui est l'extraction, donc tu devrais faire attention à ça:

  • Au moment de extraction, analyse et interprétation: les formats dans lesquels Les données ou les manières dont elles sont organisées peuvent être différentes dans chaque système séparément, puisque la plupart projets d'entreposage de données fusionner les données de différents systèmes sources.
  • Au moment de conversion de données: Rappelons que les formats sources se retrouvent régulièrement dans des bases de données relationnelles ou des fichiers plats., mais ils peuvent inclure des bases de données non relationnelles ou d'autres structures différentes.

Malgré cela, la mesure más importante a considerar sería exigir siempre que la tarea de extracción cause un impacto mínimo en el sistema fuente. Cette exigence est fondée sur la pratique, étant donné que, si les données à extraire sont volumineuses, le système source pourrait ralentir et même s'effondrer, l'amenant à ne plus être utilisé régulièrement pour un usage quotidien.

Pour éviter cet impact et ses conséquences, Dans les grands systèmes, les opérations d'extraction sont généralement programmées à des heures ou des jours où le interférence avec le système et son utilisation est nulle ou minimale.

2. Procédure de transformation

Le étape de transformation d'une procédure ETL applique une série de règles ou de fonctions métier sur les données extraites pour les convertir en données à charger. Ces directives peuvent être déclaratives, peut être basé sur des exceptions ou des restrictions, mais pour booster son pragmatisme et son efficacité, assurez-vous qu'ils sont:

  • Déclaratif.
  • Indépendant
  • Bien sûr.
  • Intelligible.
  • Avec un objectif commercial utile.

Le côté le plus pratique de la procédure de transformation

Parfois, il sera nécessaire de faire un petit manipulation de données, Malgré cela, et toujours en fonction des sources de données, parfois il faudra appliquer l'une des transformations suivantes:

  • Sélectionnez uniquement certaines colonnes à charger (par exemple, les colonnes avec des valeurs nulles ne sont pas chargées).
  • Traduire les codes (par exemple, si la source stocke un “H” pour l'Homme et un “M” pour femme, mais le destin doit stocker “1” pour l'Homme et “2” pour femme).
  • Encoder des valeurs libres (par exemple, convertir “Homme” dans “H” O “Sr” dans “1”).
  • Obtenir de nouvelles valeurs calculées (par exemple, total_vente = montant * le prix).
  • Joindre des données provenant de plusieurs sources (par exemple, recherches, syndicats, etc.).
  • Calculer les totaux pour plusieurs lignes de données (par exemple, ventes totales pour chaque région).
  • Générer des champs clés dans la destination.
  • Transposer ou pivoter (faire pivoter plusieurs colonnes en lignes ou vice versa).
  • Diviser une colonne en plusieurs (par exemple, colonne “nom: Garcia, Miguel”; passer à deux colonnes “nom: Miguel” Oui “Le nom: Garcia”).
  • Demande de formes simples ou complexes, l'action requise dans chaque cas, par exemple:
    • Données OK: fournir des données à l'étape suivante (étape de charge).
    • Données incorrectes: exécuter des stratégies de gestion des exceptions.

3. Procédure de chargement

À ce stade, les données de l'étape précédente (étape de transformation) sont téléchargés sur le système cible. Selon les besoins de l'organisation, cette procédure peut couvrir une grande variété d'actions différentes. Par exemple, dans certaines bases de données, il sera nécessaire d'écraser les anciennes informations avec de nouvelles données, tandis que dans d'autres, il suffira de résumer les transactions et de stocker une moyenne de l'ampleur considérée.

Le entrepôt de données conserver un historique des dossiers, afin qu'il soit possible de les auditer à tout moment. Cela vous permet de suivre l'historique complet d'un titre au fil du temps..

Développement de la procédure de chargement des données

Deux existent méthodes de base pour développer la procédure de tarification:

  • Cumul simple: esta forma de cargar los datos se trata de hacer un resumen de todas las transacciones comprendidas en el período de tiempo seleccionado y transportar el resultado como una única transaction Al entrepôt de données, mémoriser une valeur calculée qui sera régulièrement constituée d'une somme ou d'une moyenne de la grandeur considérée. C'est le moyen le plus simple et le plus fréquent d'effectuer les Procédure de chargement.
  • Laminage: Cette procédure serait la plus recommandée dans les cas où l'on cherche à maintenir différents niveaux de granularité. Pour ca, les informations récapitulatives sont stockées à différents niveaux, correspondant à différents regroupements de l'unité de temps ou à différents niveaux hiérarchiques dans une ou plusieurs des dimensions de la quantité stockée (par exemple, totaux quotidiens, totaux hebdomadaires, totaux mensuels, etc.) .

Quelle que soit la voie de développement de cette procédure choisie, se debe prestar atención que esta etapa interactúa de forma directa con la base de données de destino y, pourtant, Lors de l'exécution de cette procédure, toutes les restrictions qui y ont été définies seront appliquées. S'ils sont bien définis, Les qualité des données dans la procédure ETL sera garanti.

Des exemples de ces restrictions peuvent être:

  • Valeurs uniques.
  • Intégrité référentielle.
  • Champs obligatoires.
  • Plages de valeurs.

Articles Similaires:

Abonnez-vous à notre newsletter

Nous ne vous enverrons pas de courrier SPAM. Nous le détestons autant que vous.