Il 3 principali tipi di tecniche di elaborazione e analisi dei dati

Contenuti

La scelta del tipo tecniche di elaborazione e analisi dei dati influenzerà in modo decisivo il risultato. Potenza e scalabilità sono caratteristiche a cui prestare attenzione allo stesso modo del capacità del sistema per raccogliere valori anomali, rilevare transazioni fraudolente o eseguire controlli di sicurezza. Il compito più difficile, nonostante questo, è ottenere una latenza ridotta delle analisi praticato su un set completo di big data, qualcosa che deve elaborare terabyte di dati in pochi secondi.

Requisiti relativi al tempo di risposta, le condizioni dei dati da analizzare o il carico di lavoro sono le domande che determineranno quale sia l'opzione migliore rispetto a tecniche di elaborazione e analisi dei dati.

Processing_techniques_and_data_analysis.jpg

Crediti fotografici: istock kentoh

Elaborazione in lotti: per batch di grandi volumi di dati

Apache Hadoop es un marco de computación distribuida el modelo de Google Riduci mappa per elaborare grandi quantità di dati in parallelo. Il sistema de archivos distribuido l'Hadoop (HDFS) es el sistema de archivos subyacente de un grappolo de Hadoop y funziona in modo più efficiente con un numero ridotto di file di big data ad alto volume, rispetto a un numero maggiore di file di dati più piccoli.

Un lavoro nel mondo Hadoop richiede in genere da minuti a ore per essere completato, perciò, si potrebbe affermare che l'opzione Hadoop non è la più adatta quando l'azienda ha bisogno di analisi in tempo reale, ma piuttosto nei casi in cui è possibile accontentarsi di analisi offline.

Recentemente, Hadoop si è evoluto per soddisfare le nuove esigenze aziendali. Le aziende di oggi chiedono:

  • Tempo di risposta ridotto al minimo.
  • Massima precisione nel processo decisionale.

Hadoop è stato rinnovato migliorandone la gestibilità grazie a una novità nota come stream. Uno dei principali obiettivi di Streaming Hadoop consiste nel disaccoppiare Hadoop MapReduce dal paradigma per accogliere altri modelli di calcolo parallelo, come MPI (Interfaccia di passaggio dei messaggi) y Spark. Con il notizie sull'app tecniche di elaborazione e analisi dei dati trasmissione molte delle limitazioni di modello batch Quello, anche se può essere considerato troppo rigido per determinate funzioni, cosa che non dovrebbe sorprenderci se si tiene conto che le sue origini risalgono a più di quattro decenni; È ancora il più indicato, dal link costo-risultato, per operazioni come:

  • Il calcolo del valore di mercato dei beni, che non ha bisogno di essere controllato più di almeno una volta al giorno.
  • Calcolo mensile del costo delle bollette telefoniche dei lavoratori.
  • Generazione di report relativi a problematiche fiscali.

Elaborazione del flusso

Questo tipo di tecniche di elaborazione e analisi dei dati concentrarsi sul Implementazione di un modello di flusso di dati in cui i dati associati a serie temporali (fatti) fluire continuamente attraverso una rete di entità di trasformazione che compongono il sistema.. È noto come streaming o elaborazione in streaming.

Non ci sono limiti di tempo obbligatori. nell'elaborazione del flusso, contrariamente a quanto accade con tecniche di elaborazione e analisi dei dati in tempo reale. Come esempio, un sistema che si occupa del conteggio delle parole incluse in ogni tweet per il 99,9% dei tweet elaborati è un valido sistema di elaborazione del flusso. Non vi è inoltre alcun obbligo per quanto riguarda il periodo di tempo per generare l'output per ogni input ricevuto nel sistema.. Le uniche limitazioni sono:

  • Deve essere disponibile memoria sufficiente per salvare le voci in coda.
  • Il tasso di produttività del sistema a lungo termine deve essere superiore o almeno uguale al tasso di immissione dati nello stesso periodo. Se questo non è il caso, i requisiti di archiviazione del sistema crescerebbero senza limiti.

Questo tipo di tecniche di elaborazione e analisi dei dati Non è destinato ad analizzare un set completo di big data, quindi in generale non ha quella capacità, con poche eccezioni.

Tecniche di elaborazione e analisi dei dati in tempo reale

Quando i dati vengono elaborati in tempo reale, el nivel de procesamiento analítico en línea logrado es extremadamente alto y el margen es de menos de segundos. Questo è esattamente il motivo, sistemi in tempo reale di solito non usano meccanismi speciali di atomicità e durata. Sono solo responsabili dell'elaborazione della voce il prima possibile.

La domanda è cosa può succedere se perdono il biglietto. Quando questo accade, ignorare la perdita e continuare a elaborare e analizzare senza fermarsi. A seconda dell'ambiente, questo non è un ostacolo, come esempio, in un e-commerce, ma può essere nel sistema di sorveglianza di sicurezza di una banca o di un'installazione militare. Non è bene perdere informazioni, ma anche la tecnologia ha un limite e, quando si lavora in tempo reale in tempo reale, il sistema non può lasciare operazioni per riparare qualcosa che è già successo, era pochi secondi indietro. I dati continuano ad arrivare e il sistema deve fare tutto il possibile per continuare la sua elaborazione..

In ogni caso, tecniche di elaborazione e analisi dei dati in tempo reale meritano una seria considerazione, prima dell'implementazione, dato che:

  • Non sono così semplici da implementare utilizzando i comuni sistemi software.
  • Il suo costo è superiore alle alternative di trasmissione.
  • A seconda dello scopo per cui devono essere utilizzati, potrebbe essere preferibile optare per un'opzione intermedia tra streaming e tempo reale, come quello utilizzato da Amazon nel proprio portale web e che garantisce un risultato comunque non superiore a cento o duecento millisecondi per il 99% di tutte le richieste

Iscriviti alla nostra Newsletter

Non ti invieremo posta SPAM. Lo odiamo quanto te.