Tutti Processi ETL Sono costituiti da tre diverse fasi:
1) Estrazione.
2) Trasformazione.
3) Carico.
A queste tre parti va aggiunto lo stadio di pulizia Quello, come abbiamo commentato, è inteso in questo momento come una parte separata della procedura stessa.
Prossimo, spiegheremo gli aspetti principali del funzionamento di ciascuna delle fasi, così come le sue chiavi e le questioni da considerare nel suo approccio e attuazione.
Le diverse fasi della procedura di estrazione.
La prima parte della procedura ETL consiste nell'estrarre i dati dal sistema sorgente. Questa fase si compone di tre fasi:
Analisi dei bisogni precedenti. Regolarmente, c'è una prima fase di analisi in cui vengono valutate le esigenze specifiche dell'organizzazione in termini di movimento e trasformazione dei dati. Generalmente, non inizi estraendo tutte le informazioni, Invece, inizi con il trattamento di dati specifici in base a una specifica esigenza e poi fai estensioni quando sono necessarie.
Identificazione file. Prima di estrarre i dati, di che tipo e in che formato sono identificati i sistemi di origine. Come esempio, che si tratti di database relazionali o non relazionali, file flat, file complessi, File VSAM, Servizi web, Telaio principale, File Excel, eccetera. Regolarmente, i dati dai sistemi di origine provengono da diversi formati, essere unito.
Estrazione dati. A seconda delle esigenze rilevate, i dati stessi vengono estratti.
Modalità di estrazione
Semplicemente, ci sono tre diverse modalità di estrazione. Il tipo di necessità dell'organizzazione è ciò che, regolarmente, determinerà la scelta in un modo o nell'altro.
Estratto completo o estrazione totale
Questo metodo riguarda l'estrazione di tutti i dati. In questa circostanza, intere tabelle che possono avere milioni di record vengono spazzate.
Dichiarazione incrementale o estrazione incrementale
Solo ciò che è stato modificato o aggiunto viene elaborato in batch. Inoltre, potrebbero esserci righe che vengono eliminate perché duplicate, dati errati, eccetera.
Aggiorna notifica o aggiorna la notifica
In questa circostanza, i dati vengono estratti solo quando si verifica un aggiornamento (come esempio, un inserto).
Questi tre tipi di estrazione sono gestiti da un modulo chiamato Acquisizione di dati modificati (CENTRI PER IL CONTROLLO E LA PREVENZIONE DELLE MALATTIE).
Chiavi per la procedura di estrazione
La procedura di estrazione ideale è quella appena percettibile.
Qualsiasi organizzazione, l'azienda o l'azienda deve richiedere che la procedura per l'estrazione dei dati dalla sua o dalle sue fonti provochi il minor impatto possibile. In altre parole, nessun problema per i lavoratori che lavorano quotidianamente con dati e record.
L'estrazione contemporanea di una quantità eccessiva di dati può rallentare e persino arrestare il sistema. così, È essenziale valutare molto bene le esigenze e la portata dell'operazione da eseguire e, nel tuo caso, eseguire l'operazione gradualmente in blocchi più piccoli e / o nelle date e negli orari più appropriati per ottenere quell'impatto minimo.