La scelta del tipo tecniche di elaborazione e analisi dei dati influenzerà in modo decisivo il risultato. Potenza e scalabilità sono caratteristiche a cui prestare attenzione allo stesso modo del capacità del sistema per raccogliere valori anomali, rilevare transazioni fraudolente o eseguire controlli di sicurezza. Il compito più difficile, nonostante questo, è ottenere una latenza ridotta delle analisi praticato su un set completo di big data, qualcosa che deve elaborare terabyte di dati in pochi secondi.
Requisiti relativi al tempo di risposta, le condizioni dei dati da analizzare o il carico di lavoro sono le domande che determineranno quale sia l'opzione migliore rispetto a tecniche di elaborazione e analisi dei dati.
Crediti fotografici: istock kentoh
Elaborazione in lotti: per batch di grandi volumi di dati
Apache Hadoop es un marco de computación distribuida el modelo de Google Riduci mappaMapReduce è un modello di programmazione progettato per elaborare e generare in modo efficiente set di dati di grandi dimensioni. Sviluppato da Google, Questo approccio suddivide il lavoro in attività più piccole, che sono distribuiti tra più nodi in un cluster. Ogni nodo elabora la sua parte e poi i risultati vengono combinati. Questo metodo consente di scalare le applicazioni e gestire enormi volumi di informazioni, essere fondamentali nel mondo dei Big Data.... per elaborare grandi quantità di dati in parallelo. Il sistema de archivos distribuidoUn sistema de archivos distribuido (DFS) permite el almacenamiento y acceso a datos en múltiples servidores, facilitando la gestión de grandes volúmenes de información. Este tipo de sistema mejora la disponibilidad y la redundancia, ya que los archivos se replican en diferentes ubicaciones, lo que reduce el riesgo de pérdida de datos. Cosa c'è di più, permite a los usuarios acceder a los archivos desde distintas plataformas y dispositivos, promoviendo la colaboración y... l'Hadoop (HDFSHDFS, o File system distribuito Hadoop, Si tratta di un'infrastruttura chiave per l'archiviazione di grandi volumi di dati. Progettato per funzionare su hardware comune, HDFS consente la distribuzione dei dati su più nodi, garantire un'elevata disponibilità e tolleranza ai guasti. La sua architettura si basa su un modello master-slave, dove un nodo master gestisce il sistema e i nodi slave memorizzano i dati, facilitare l'elaborazione efficiente delle informazioni..) es el sistema de archivos subyacente de un grappoloUn cluster è un insieme di aziende e organizzazioni interconnesse che operano nello stesso settore o area geografica, e che collaborano per migliorare la loro competitività. Questi raggruppamenti consentono la condivisione delle risorse, Conoscenze e tecnologie, promuovere l'innovazione e la crescita economica. I cluster possono coprire una varietà di settori, Dalla tecnologia all'agricoltura, e sono fondamentali per lo sviluppo regionale e la creazione di posti di lavoro.... de Hadoop y funziona in modo più efficiente con un numero ridotto di file di big data ad alto volume, rispetto a un numero maggiore di file di dati più piccoli.
Un lavoro nel mondo Hadoop richiede in genere da minuti a ore per essere completato, perciò, si potrebbe affermare che l'opzione Hadoop non è la più adatta quando l'azienda ha bisogno di analisi in tempo reale, ma piuttosto nei casi in cui è possibile accontentarsi di analisi offline.
Recentemente, Hadoop si è evoluto per soddisfare le nuove esigenze aziendali. Le aziende di oggi chiedono:
- Tempo di risposta ridotto al minimo.
- Massima precisione nel processo decisionale.
Hadoop è stato rinnovato migliorandone la gestibilità grazie a una novità nota come stream. Uno dei principali obiettivi di Streaming Hadoop consiste nel disaccoppiare Hadoop MapReduce dal paradigma per accogliere altri modelli di calcolo parallelo, come MPI (Interfaccia di passaggio dei messaggi) y Spark. Con il notizie sull'app tecniche di elaborazione e analisi dei dati trasmissione molte delle limitazioni di modello batch Quello, anche se può essere considerato troppo rigido per determinate funzioni, cosa che non dovrebbe sorprenderci se si tiene conto che le sue origini risalgono a più di quattro decenni; È ancora il più indicato, dal link costo-risultato, per operazioni come:
- Il calcolo del valore di mercato dei beni, che non ha bisogno di essere controllato più di almeno una volta al giorno.
- Calcolo mensile del costo delle bollette telefoniche dei lavoratori.
- Generazione di report relativi a problematiche fiscali.
Elaborazione del flusso
Questo tipo di tecniche di elaborazione e analisi dei dati concentrarsi sul Implementazione di un modello di flusso di dati in cui i dati associati a serie temporali (fatti) fluire continuamente attraverso una rete di entità di trasformazione che compongono il sistema.. È noto come streaming o elaborazione in streaming.
Non ci sono limiti di tempo obbligatori. nell'elaborazione del flusso, contrariamente a quanto accade con tecniche di elaborazione e analisi dei dati in tempo reale. Come esempio, un sistema che si occupa del conteggio delle parole incluse in ogni tweet per il 99,9% dei tweet elaborati è un valido sistema di elaborazione del flusso. Non vi è inoltre alcun obbligo per quanto riguarda il periodo di tempo per generare l'output per ogni input ricevuto nel sistema.. Le uniche limitazioni sono:
- Deve essere disponibile memoria sufficiente per salvare le voci in coda.
- Il tasso di produttività del sistema a lungo termine deve essere superiore o almeno uguale al tasso di immissione dati nello stesso periodo. Se questo non è il caso, i requisiti di archiviazione del sistema crescerebbero senza limiti.
Questo tipo di tecniche di elaborazione e analisi dei dati Non è destinato ad analizzare un set completo di big data, quindi in generale non ha quella capacità, con poche eccezioni.
Tecniche di elaborazione e analisi dei dati in tempo reale
Quando i dati vengono elaborati in tempo reale, el nivel de procesamiento analítico en línea logrado es extremadamente alto y el margineMargine è un termine usato in una varietà di contesti, come la contabilità, Economia e stampa. In contabilità, si riferisce alla differenza tra ricavi e costi, che permette di valutare la redditività di un'impresa. Nel campo dell'editoria, Il margine è lo spazio bianco intorno al testo di una pagina, che lo rende facile da leggere e fornisce una presentazione estetica. La sua corretta gestione è fondamentale.. es de menos de segundos. Questo è esattamente il motivo, sistemi in tempo reale di solito non usano meccanismi speciali di atomicità e durata. Sono solo responsabili dell'elaborazione della voce il prima possibile.
La domanda è cosa può succedere se perdono il biglietto. Quando questo accade, ignorare la perdita e continuare a elaborare e analizzare senza fermarsi. A seconda dell'ambiente, questo non è un ostacolo, come esempio, in un e-commerce, ma può essere nel sistema di sorveglianza di sicurezza di una banca o di un'installazione militare. Non è bene perdere informazioni, ma anche la tecnologia ha un limite e, quando si lavora in tempo reale in tempo reale, il sistema non può lasciare operazioni per riparare qualcosa che è già successo, era pochi secondi indietro. I dati continuano ad arrivare e il sistema deve fare tutto il possibile per continuare la sua elaborazione..
In ogni caso, tecniche di elaborazione e analisi dei dati in tempo reale meritano una seria considerazione, prima dell'implementazione, dato che:
- Non sono così semplici da implementare utilizzando i comuni sistemi software.
- Il suo costo è superiore alle alternative di trasmissione.
- A seconda dello scopo per cui devono essere utilizzati, potrebbe essere preferibile optare per un'opzione intermedia tra streaming e tempo reale, come quello utilizzato da Amazon nel proprio portale web e che garantisce un risultato comunque non superiore a cento o duecento millisecondi per il 99% di tutte le richieste