Ecosistema Hadoop | Hadoop per i Big Data e l'ingegneria dei dati

Condividere su Facebook
Condividere su twitter
Condividere su linkato
Condividere su telegramma
Condividere su WhatsApp

Contenuti

Panoramica

  • Hadoop è tra gli strumenti più popolari nell'ingegneria dei dati e nello spazio Big Data.
  • Hadoop è tra gli strumenti più popolari nell'ingegneria dei dati e nello spazio Big Data..

introduzione

Attualmente, Hadoop è tra gli strumenti più popolari nell'ingegneria dei dati e nello spazio Big Data. 4 Hadoop è tra gli strumenti più popolari nell'ingegneria dei dati e nello spazio Big Data.. Hadoop è tra gli strumenti più popolari nell'ingegneria dei dati e nello spazio Big Data., Hadoop è tra gli strumenti più popolari nell'ingegneria dei dati e nello spazio Big Data.:

9.176 Hadoop è tra gli strumenti più popolari nell'ingegneria dei dati e nello spazio Big Data.

1.023 Hadoop è tra gli strumenti più popolari nell'ingegneria dei dati e nello spazio Big Data.

5.036 Hadoop è tra gli strumenti più popolari nell'ingegneria dei dati e nello spazio Big Data.

86,497 Hadoop è tra gli strumenti più popolari nell'ingegneria dei dati e nello spazio Big Data.

86,302 Hadoop è tra gli strumenti più popolari nell'ingegneria dei dati e nello spazio Big Data.

2.957.983 Hadoop è tra gli strumenti più popolari nell'ingegneria dei dati e nello spazio Big Data.

Hadoop è tra gli strumenti più popolari nell'ingegneria dei dati e nello spazio Big Data.

Hadoop è tra gli strumenti più popolari nell'ingegneria dei dati e nello spazio Big Data.: Hadoop è tra gli strumenti più popolari nell'ingegneria dei dati e nello spazio Big Data.! Hadoop è tra gli strumenti più popolari nell'ingegneria dei dati e nello spazio Big Data. 2020 Hadoop è tra gli strumenti più popolari nell'ingegneria dei dati e nello spazio Big Data. 44 Hadoop è tra gli strumenti più popolari nell'ingegneria dei dati e nello spazio Big Data.. Hadoop è tra gli strumenti più popolari nell'ingegneria dei dati e nello spazio Big Data. 44 * 10 ^ 21!

Questa enorme quantità di dati generata a un ritmo feroce e in tutti i tipi di formati è ciò che oggi chiamiamo Big Data.. Questa enorme quantità di dati generata a un ritmo feroce e in tutti i tipi di formati è ciò che oggi chiamiamo Big Data. 40 anni. Questa enorme quantità di dati generata a un ritmo feroce e in tutti i tipi di formati è ciò che oggi chiamiamo Big Data., Questa enorme quantità di dati generata a un ritmo feroce e in tutti i tipi di formati è ciò che oggi chiamiamo Big Data., Questa enorme quantità di dati generata a un ritmo feroce e in tutti i tipi di formati è ciò che oggi chiamiamo Big Data..

Questa enorme quantità di dati generata a un ritmo feroce e in tutti i tipi di formati è ciò che oggi chiamiamo Big Data.

Questa enorme quantità di dati generata a un ritmo feroce e in tutti i tipi di formati è ciò che oggi chiamiamo Big Data., Questa enorme quantità di dati generata a un ritmo feroce e in tutti i tipi di formati è ciò che oggi chiamiamo Big Data.. Questa enorme quantità di dati generata a un ritmo feroce e in tutti i tipi di formati è ciò che oggi chiamiamo Big Data., Questa enorme quantità di dati generata a un ritmo feroce e in tutti i tipi di formati è ciò che oggi chiamiamo Big Data..

Quindi, in questo articolo, cercheremo di capire questo ecosistema e scomporre le sue componenti.

Sommario

  1. Problema con i sistemi tradizionali
  2. Cos'è Hadoop??
  3. Componenti dell'ecosistema Hadoop
    1. HDFS (File system distribuito Hadoop)
    2. Mappa piccola
    3. HILO
    4. HBase
    5. Maiale
    6. Alveare
    7. Sqoop
    8. canale artificiale
    9. Kafka
    10. guardiano dello zoo
    11. Scintilla – scintilla
  4. Fasi del trattamento dei Big Data

Problema con i sistemi tradizionali

Per sistemi tradizionali, Mi riferisco a sistemi come database relazionali e data warehouse. Le organizzazioni li hanno usati per l'ultimo 40 anni per archiviare e analizzare i tuoi dati. Ma i dati che vengono generati oggi non possono essere gestiti da questi database per i seguenti motivi:

  • La maggior parte dei dati generati oggi è semistrutturata o non strutturata. Ma i sistemi tradizionali sono stati progettati per gestire solo dati strutturati con righe e colonne ben progettate.
  • I database delle relazioni sono scalabili verticalmente, il che significa che è necessario aggiungere più elaborazione, memoria e archiviazione sullo stesso sistema. Questo può essere molto costoso
  • I dati archiviati oggi sono in diversi silos. Raccoglierli e analizzarli per i modelli può essere un compito molto difficile..

Quindi, come gestiamo i big data? È qui che entra in gioco Hadoop!!

Cos'è Hadoop??

Le persone di Google hanno anche affrontato le sfide sopra menzionate quando volevano classificare le pagine su Internet.. Hanno scoperto che i database relazionali erano molto costosi e poco flessibili. Quindi, hanno escogitato la loro nuova soluzione. Hanno creato il file system di google (GFS).

GFS è un file system distribuito che supera gli svantaggi dei sistemi tradizionali. GFS è un file system distribuito che supera gli svantaggi dei sistemi tradizionali, GFS è un file system distribuito che supera gli svantaggi dei sistemi tradizionali. GFS è un file system distribuito che supera gli svantaggi dei sistemi tradizionali Apache Hadoop.

GFS è un file system distribuito che supera gli svantaggi dei sistemi tradizionali. GFS è un file system distribuito che supera gli svantaggi dei sistemi tradizionali.

GFS è un file system distribuito che supera gli svantaggi dei sistemi tradizionali:

  • GFS è un file system distribuito che supera gli svantaggi dei sistemi tradizionali GFS è un file system distribuito che supera gli svantaggi dei sistemi tradizionali GFS è un file system distribuito che supera gli svantaggi dei sistemi tradizionali
  • GFS è un file system distribuito che supera gli svantaggi dei sistemi tradizionali, GFS è un file system distribuito che supera gli svantaggi dei sistemi tradizionali scala orizzontale
  • Crea e salva repliche di dati in questo modo tollerante agli errori
  • Questo economico poiché tutti i nodi nel cluster sono hardware di base che non è altro che macchine economiche
  • Hadoop usa il concetto di località dei dati per elaborare i dati sui nodi in cui sono archiviati invece di spostare i dati attraverso la rete, riducendo così il traffico
  • Maggio gestire qualsiasi tipo di dato: strutturato, semistrutturato e non strutturato. Questo è estremamente importante oggi perché la maggior parte dei nostri dati (email, Instagram, Twitter, Dispositivi IoT, eccetera.) non hanno un formato definito.

Ora, vediamo i componenti dell'ecosistema Hadoop.

Componenti dell'ecosistema Hadoop

hadoop-ecosistema-1-6779878

In questa sezione, discuteremo le diverse componenti dell'ecosistema Hadoop.

HDFS (File system distribuito Hadoop)

hdfs-1-8953056

È il componente di archiviazione di Hadoop che memorizza i dati sotto forma di file..

È il componente di archiviazione di Hadoop che memorizza i dati sotto forma di file. 128 MB (È il componente di archiviazione di Hadoop che memorizza i dati sotto forma di file.) È il componente di archiviazione di Hadoop che memorizza i dati sotto forma di file..

È il componente di archiviazione di Hadoop che memorizza i dati sotto forma di file.: È il componente di archiviazione di Hadoop che memorizza i dati sotto forma di file..

  • È il componente di archiviazione di Hadoop che memorizza i dati sotto forma di file. È il componente di archiviazione di Hadoop che memorizza i dati sotto forma di file.. È il componente di archiviazione di Hadoop che memorizza i dati sotto forma di file..
  • È il componente di archiviazione di Hadoop che memorizza i dati sotto forma di file. È il componente di archiviazione di Hadoop che memorizza i dati sotto forma di file.. È il componente di archiviazione di Hadoop che memorizza i dati sotto forma di file.. È il componente di archiviazione di Hadoop che memorizza i dati sotto forma di file..

Mappa piccola

È il componente di archiviazione di Hadoop che memorizza i dati sotto forma di file.

È il componente di archiviazione di Hadoop che memorizza i dati sotto forma di file., È il componente di archiviazione di Hadoop che memorizza i dati sotto forma di file. È il componente di archiviazione di Hadoop che memorizza i dati sotto forma di file. Introdotto da Google e semplifica la distribuzione di un lavoro e l'esecuzione in parallelo su un cluster. Fondamentalmente, dividere una singola attività in più attività ed elaborarle su macchine diverse.

In parole povere, funziona in modo divide et impera ed esegue processi sulle macchine per ridurre il traffico di rete.

Ha due fasi importanti.: Mappa e riduci.

hadoop-mapreduce-working-7773273

fase cartografica filtro, raggruppare e ordinare i dati. I dati di input sono divisi in multipli divisioni. Ogni attività della mappa funziona su una porzione di dati in parallelo su macchine diverse e genera una coppia chiave-valore. L'uscita di questa fase è azionata dal ridurre il compito ed è conosciuto come il ridurre la fase. Aggiungi i dati, riassumere il risultato e memorizzarlo in HDFS.

HILO

hadoop-yarn-1-8796831

hadoop-yarn-1-8796831. hadoop-yarn-1-8796831, hadoop-yarn-1-8796831, hadoop-yarn-1-8796831, hadoop-yarn-1-8796831, hadoop-yarn-1-8796831. hadoop-yarn-1-8796831.

HBase

hadoop-yarn-1-8796831

hadoop-yarn-1-8796831. hadoop-yarn-1-8796831. hadoop-yarn-1-8796831 / hadoop-yarn-1-8796831.

Maiale

hadoop-yarn-1-8796831

Pig è stato sviluppato per analizzare grandi set di dati e supera la difficoltà di scrivere mappe e ridurre le funzioni.. Pig è stato sviluppato per analizzare grandi set di dati e supera la difficoltà di scrivere mappe e ridurre le funzioni.: Pig è stato sviluppato per analizzare grandi set di dati e supera la difficoltà di scrivere mappe e ridurre le funzioni..

Pig è stato sviluppato per analizzare grandi set di dati e supera la difficoltà di scrivere mappe e ridurre le funzioni.. Pig è stato sviluppato per analizzare grandi set di dati e supera la difficoltà di scrivere mappe e ridurre le funzioni.. Internamente, Pig è stato sviluppato per analizzare grandi set di dati e supera la difficoltà di scrivere mappe e ridurre le funzioni..

Alveare

Pig è stato sviluppato per analizzare grandi set di dati e supera la difficoltà di scrivere mappe e ridurre le funzioni.

Pig è stato sviluppato per analizzare grandi set di dati e supera la difficoltà di scrivere mappe e ridurre le funzioni.. Pig è stato sviluppato per analizzare grandi set di dati e supera la difficoltà di scrivere mappe e ridurre le funzioni., Pig è stato sviluppato per analizzare grandi set di dati e supera la difficoltà di scrivere mappe e ridurre le funzioni.. Pig è stato sviluppato per analizzare grandi set di dati e supera la difficoltà di scrivere mappe e ridurre le funzioni. (HQL), Pig è stato sviluppato per analizzare grandi set di dati e supera la difficoltà di scrivere mappe e ridurre le funzioni.. Questo rende molto facile per i programmatori scrivere funzioni MapReduce usando semplici query HQL..

Sqoop

apache-sqoop-4753001

Molte applicazioni archiviano ancora i dati in database relazionali, il che li rende una fonte di dati molto importante. Perciò, Sqoop svolge un ruolo importante nel portare i dati dai database relazionali a HDFS.

I comandi scritti in Sqoop vengono convertiti internamente in attività MapReduce in esecuzione su HDFS. Funziona con quasi tutti i database relazionali come MySQL, Postgres, SQLite, eccetera. Può anche essere utilizzato per esportare dati da HDFS a RDBMS.

canale artificiale

apache-flume-7540138

Flume è un servizio open source, affidabile e disponibile che viene utilizzato per raccogliere, aggiungere e spostare in modo efficiente grandi quantità di dati da più origini dati a HDFS. Puoi raccogliere dati in tempo reale e in modalità batch. Ha un'architettura flessibile ed è tollerante ai guasti con più meccanismi di ripristino..

Kafka

apache-kafka-4289029

Esistono molte app che generano dati e un numero proporzionale di app che consumano tali dati. Ma collegarli individualmente è un compito difficile. È qui che entra in gioco Kafka. È tra le applicazioni che generano dati (produttori) e app che consumano dati (consumatori).

Kafka è distribuito e partizionato, tolleranza di errore e replica integrate. Può gestire lo streaming di dati e consente inoltre alle aziende di analizzare i dati in tempo reale..

Oozie

oozie-1045335

Oozie è un sistema di pianificazione del flusso di lavoro che consente agli utenti di collegare lavori scritti su più piattaforme come MapReduce, Alveare, Maiale, eccetera. Oozie è un sistema di pianificazione del flusso di lavoro che consente agli utenti di collegare lavori scritti su più piattaforme come MapReduce. Ad esempio, Oozie è un sistema di pianificazione del flusso di lavoro che consente agli utenti di collegare lavori scritti su più piattaforme come MapReduce.

guardiano dello zoo

Oozie è un sistema di pianificazione del flusso di lavoro che consente agli utenti di collegare lavori scritti su più piattaforme come MapReduce

Oozie è un sistema di pianificazione del flusso di lavoro che consente agli utenti di collegare lavori scritti su più piattaforme come MapReduce, Oozie è un sistema di pianificazione del flusso di lavoro che consente agli utenti di collegare lavori scritti su più piattaforme come MapReduce. Perciò, Oozie è un sistema di pianificazione del flusso di lavoro che consente agli utenti di collegare lavori scritti su più piattaforme come MapReduce.

Oozie è un sistema di pianificazione del flusso di lavoro che consente agli utenti di collegare lavori scritti su più piattaforme come MapReduce, Oozie è un sistema di pianificazione del flusso di lavoro che consente agli utenti di collegare lavori scritti su più piattaforme come MapReduce, Oozie è un sistema di pianificazione del flusso di lavoro che consente agli utenti di collegare lavori scritti su più piattaforme come MapReduce, fornire sincronizzazione distribuita e fornire servizi di gruppo nel cluster.

Scintilla – scintilla

apache-spark-3617551

Spark è un framework alternativo a Hadoop basato su Scala, ma supporta varie applicazioni scritte in Java, Pitone, eccetera. Rispetto a MapReduce, fornisce un'elaborazione in memoria che rappresenta un'elaborazione più rapida. Oltre all'elaborazione batch offerta da Hadoop, può anche gestire l'elaborazione in tempo reale.

Cosa c'è di più, Spark ha il suo ecosistema:

spark-ecosistema-3649745

  • Nucleo Scintilla è il motore di esecuzione principale per Spark e altre API basate su di esso
  • API di Spark SQL consente di eseguire query sui dati strutturati archiviati in DataFrames o tabelle Hive
  • API di streaming consente a Spark di gestire i dati in tempo reale. Può essere facilmente integrato con una varietà di fonti di dati come Flume, Kafka e Twitter.
  • MLlib è una libreria di apprendimento automatico scalabile che ti consentirà di eseguire attività di data science sfruttando contemporaneamente le proprietà di Spark
  • GraficoX è un motore di calcolo grafico che consente agli utenti di creare, trasforma e ragiona in modo interattivo su dati strutturati in grafici su larga scala e viene fornito con una libreria di algoritmi comuni

Fasi del trattamento dei Big Data

Con così tanti componenti all'interno dell'ecosistema Hadoop, può essere abbastanza intimidatorio e difficile da capire cosa fa ogni componente. Perciò, è più facile raggruppare alcuni dei componenti in base a dove si trovano nella fase di elaborazione dei Big Data.

big-data-processing-stages-1854353

  • Flume, big-data-processing-stages-1854353
  • big-data-processing-stages-1854353. big-data-processing-stages-1854353
  • big-data-processing-stages-1854353
  • Maiale, big-data-processing-stages-1854353.
  • big-data-processing-stages-1854353. big-data-processing-stages-1854353, big-data-processing-stages-1854353.
  • big-data-processing-stages-1854353.

Note finali

big-data-processing-stages-1854353, big-data-processing-stages-1854353.

Ti incoraggio a dare un'occhiata ad altri articoli sui Big Data che potresti trovare utili:

Iscriviti alla nostra Newsletter

Non ti invieremo posta SPAM. Lo odiamo quanto te.