Panoramica
- Comprenda el significado de particionar y agrupar en AlveareHive è una piattaforma di social media decentralizzata che consente ai suoi utenti di condividere contenuti e connettersi con gli altri senza l'intervento di un'autorità centrale. Utilizza la tecnologia blockchain per garantire la sicurezza e la proprietà dei dati. A differenza di altri social network, Hive consente agli utenti di monetizzare i propri contenuti attraverso ricompense in criptovalute, che incoraggia la creazione e lo scambio attivo di informazioni.... in dettaglio.
- Vedremo, come creare partizioni e cubi su Hive.
introduzione
Potresti aver visto un'enciclopedia nella tua biblioteca scolastica o universitaria. È una serie di libri che ti daranno informazioni su quasi tutto. Sai qual è il meglio dell'enciclopedia??
sì, hai indovinato. Le parole sono disposte in ordine alfabetico. Ad esempio, ha una parola in mente “piramidi”. Andrai direttamente a ritirare il libro con il titolo "P". Non devi cercarlo in altri libri. Riesci a immaginare quanto sarebbe difficile il compito di cercare un singolo libro se non fossero conservati in ordine??
Qui, memorizzare le parole in ordine alfabetico rappresenta l'indicizzazione, pero el uso de una ubicación diferente para las palabras que comienzan con el mismo carácter se conoce como raggruppamentoIl "raggruppamento" È un concetto che si riferisce all'organizzazione di elementi o individui in gruppi con caratteristiche o obiettivi comuni. Questo processo viene utilizzato in varie discipline, compresa la psicologia, Educazione e biologia, per facilitare l'analisi e la comprensione di comportamenti o fenomeni. In ambito educativo, ad esempio, Il raggruppamento può migliorare l'interazione e l'apprendimento tra gli studenti incoraggiando il lavoro...
Esistono tipi simili di tecniche di archiviazione, come partizioni e raggruppamenti, Su Apache Hive così possiamo ottenere risultati più rapidi per le query di ricerca. In questo articolo, vedremo cos'è la partizione e il raggruppamento, e quando usare quale.
Sommario
- Che cos'è il partizionamento??
- Quando usare il partizionamento?
- Che cos'è il raggruppamento??
- Quando usare il raggruppamento?
Che cos'è il partizionamento??
Apache Hive ci permette di organizzare la tabella in più partizioni dove possiamo raggruppare lo stesso tipo di dati. Utilizzato per distribuire il carico orizzontalmente. Capiamo con un esempio:
Supponiamo di dover creare una tabella nell'alveare contenente i dettagli del prodotto per un'azienda di e-commerce di moda. Ha le seguenti colonne:
Ora, il primo filtro utilizzato dalla maggior parte dei clienti è Gender, quindi seleziona categorie come Camicia, le sue dimensioni e il colore. Vediamo come creare le partizioni per questo esempio.
CREA TABELLA prodotti ( stringa id_prodotto, stringa di marca, stringa di dimensioni, sconto galleggiante, prezzo fluttuante ) DIVISO DA (stringa di genere, stringa di categoria, stringa di colore);
Ora, l'alveare memorizzerà i dati nella struttura della directory come:
/user/hive/warehouse/mytable/gender=male/category=shoes/color=black
Il partizionamento dei dati ci offre vantaggi in termini di prestazioni e ci aiuta anche a organizzare i dati. Ora, vediamo quando usare la partizione in hive.
Quando usare il partizionamento?
- Quando la colonna con una query di ricerca alta ha una cardinalità bassa. Ad esempio, se crei una partizione con il nome del paese, un massimo di 195 le partizioni e l'alveare saranno in grado di gestire così tante directory.
- In secondo luogo, non partizionare colonne con cardinalità molto alta. Ad esempio, numero identificativo del prodotto, timestamp e prezzo perché creerà milioni di directory che sarà impossibile gestire per l'alveare.
- È efficace quando il volume di dati su ciascuna partizione non è molto elevato. Ad esempio, se hai i dati della compagnia aerea e vuoi calcolare il numero totale di voli in un giorno. Quindi, il risultato impiegherà più tempo per il calcolo sulla partizione “Dubai”, poiché ha uno degli aeroporti più trafficati del mondo, mentre per un paese come “Albania” restituirà i risultati più velocemente.
Che cos'è il raggruppamento??
Nell'esempio sopra, sappiamo che non possiamo partizionare sul prezzo della colonna perché il suo tipo di dati è float e ci sono un numero infinito di possibili prezzi unici.
Hive dovrà generare una directory separata per ciascuno dei prezzi unici e sarebbe molto difficile per Hive gestirli. Invece di questo, possiamo definire manualmente il numero di depositi che vogliamo per queste colonne.
In raggruppamento, le partizioni possono essere suddivise in gruppi in base alla funzione hash di una colonna. Fornisce una struttura aggiuntiva ai dati che possono essere utilizzati per query più efficienti.
CREA TABELLA prodotti ( stringa id_prodotto, stringa di marca, stringa di dimensioni, sconto galleggiante, prezzo fluttuante ) DIVISO DA (stringa di genere, stringa di categoria, stringa di colore) RAGGRUPPATO DA (prezzo) IN 50 SECCHI;
Ora, sarà solo creato 50 depositi, non importa quanti valori univoci ci sono nella colonna del prezzo. Ad esempio, nel primo cubo, tutti i prodotti con un prezzo [ 0 – 500 ] Iran, e nel prossimo gruppo di prodotti con un prezzo [ 500 – 200 ] e così via.
Quando usare il raggruppamento?
- Non possiamo dividere in una colonna con una cardinalità molto alta. Troppe partizioni genereranno più file Hadoop, lo que aumentará la carga en el mismo nodoNodo è una piattaforma digitale che facilita la connessione tra professionisti e aziende alla ricerca di talenti. Attraverso un sistema intuitivo, Consente agli utenti di creare profili, condividere esperienze e accedere a opportunità di lavoro. La sua attenzione alla collaborazione e al networking rende Nodo uno strumento prezioso per chi vuole ampliare la propria rete professionale e trovare progetti in linea con le proprie competenze e obiettivi...., poiché deve trasportare i metadati di ciascuna delle partizioni.
- Se alcune combinazioni del lato della mappa sono coinvolte nelle tue query, i tavoli raggruppati sono una buona opzione. L'unione lato mappa è un processo in cui due tabelle vengono unite utilizzando la sola funzione mappa senza alcuna funzione ridotta. Ti consiglio di leggere questo articolo per capire meglio le combinazioni dei lati della mappa: Il lato della mappa si unisce a Hive
Note finali
In questo articolo, abbiamo visto cos'è la partizione e il raggruppamento, come crearli e quali sono i loro pro e contro.
Consiglio vivamente di consultare le seguenti risorse per saperne di più su Apache Hive:
Se hai domande relative a questo articolo, fammi sapere nella sezione commenti qui sotto.