Nell'articolo precedente, discutiamo dell'ecosistema Hadoop (collegamento). Abbiamo parlato anche dei due strumenti Hadoop più utilizzati, vale a dire, MAIALEEl cerdo, un mamífero domesticado de la familia Suidae, es conocido por su versatilidad en la agricultura y la producción de alimentos. Originario de Asia, su cría se ha extendido por todo el mundo. Los cerdos son omnívoros y poseen una alta capacidad de adaptación a diversos hábitats. Cosa c'è di più, juegan un papel importante en la economía, proporcionando carne, cuero y otros productos derivados. Su inteligencia y comportamiento social también son... e HIVEHive es una plataforma de redes sociales descentralizada que permite a sus usuarios compartir contenido y conectar con otros sin la intervención de una autoridad central. Utiliza tecnología blockchain para garantizar la seguridad y la propiedad de los datos. A diferencia de otras redes sociales, Hive permite a los usuarios monetizar su contenido a través de recompensas en criptomonedas, lo que fomenta la creación y el intercambio activo de información..... Entrambe le lingue hanno i loro seguaci e non c'è una preferenza specifica tra le due, generalmente. tuttavia, nei casi in cui il team che utilizza questi strumenti è più orientato alla programmazione, a volte il MAIALE viene preferito all'HIVE, in quanto dà loro più libertà durante la codifica. Nei casi in cui il team non è molto esperto nella programmazione, L'HIVE è probabilmente un'opzione migliore, data la sua somiglianza con le query SQL. Le domande su PIG sono scritte in latino PIG. In questo articolo ti presenteremo il PIG Latin usando un semplice esempio pratico.
Installazione PIG
Il motore PIG gira sul server del client. È semplicemente un interprete che trasforma il tuo semplice codice in complesse operazioni di riduzione della mappa. è Riduci mappaMapReduce es un modelo de programación diseñado para procesar y generar grandes conjuntos de datos de manera eficiente. Desarrollado por Google, este enfoque Divide el trabajo en tareas más pequeñas, las cuales se distribuyen entre múltiples nodos en un clúster. Cada nodo procesa su parte y luego se combinan los resultados. Este método permite escalar aplicaciones y manejar volúmenes masivos de información, siendo fundamental en el mundo del Big Data.... ahora se maneja en la red distribuida de Hadoop. Nota che l'intera rete non saprà nemmeno che la query è stata eseguita da un motore PIG. PIG rimane solo nell'interfaccia utente e ha lo scopo di semplificare la codifica per l'utente.
Segui i passaggi seguenti nella tua shell per installare PIG:
Se stai pensando di eseguire Pig su Windows, dovresti semplicemente far funzionare una macchina virtuale su Linux e poi lavorarci sopra. Puoi usare VMWare Player o Oracle VirtualBox per avviarne uno.
Dopo aver installato il pacchetto PIG, puoi iniziare con la shell grunt.
una volta che vedo “ringhio>”, puoi iniziare a programmare in PIG.
Sfondo del caso
Sei il leader dell'analisi in un negozio al dettaglio chiamato XYZ. XYZ tiene un registro di tutti i clienti che fanno acquisti in questo negozio. Il tuo compito per questo esercizio è creare una nuova colonna chiamata IVA., che cosa è lui 5% della vendita. Dopo, filtra le persone per le quali l'importo dell'imposta è inferiore a $ 35. Una volta terminato questo sottoinsieme, scegli il 2 principali clienti con il minor numero di clienti. Di seguito è riportata una tabella di esempio per il negozio al dettaglio che viene salvata come .csv.
Scrivi una query in PIG Latin
Costruiamo questa query passo dopo passo. Di seguito sono riportati i passaggi che devi seguire:
passo 1 : Carica il set di dati nel formato comprensibile di PIG e archiviazione temporanea da cui la query PIG può fare riferimento direttamente alla tabella
Tenga en cuenta que el comando anterior no carga la variabileIn statistica e matematica, un "variabile" è un simbolo che rappresenta un valore che può cambiare o variare. Esistono diversi tipi di variabili, e qualitativo, che descrivono caratteristiche non numeriche, e quantitativo, che rappresentano quantità numeriche. Le variabili sono fondamentali negli esperimenti e negli studi, poiché consentono l'analisi delle relazioni e dei modelli tra elementi diversi, facilitare la comprensione di fenomeni complessi.... età. Mentre si lavora con i Big Data, devi essere molto specifico sulle variabili che devi usare e, così, assicurati di scegliere solo quelle variabili che sono importanti per te nel tuo codice.
passo 2: crea una nuova tabella con i valori delle tasse.
Il comando sopra genera una nuova tabella chiamata tasse che ha le tre colonne. La tabella sarà ora simile alla seguente:
passo 3: Sottoimposta l'intera tabella sul cliente con un valore fiscale di seguito $ 35.
Il risultato di questo comando verrà visualizzato scegli le celle gialle nella tabella seguente:
passo 4: Ora dobbiamo ordinare la tabella del sottoinsieme per Cliente (ID) e scegli i due Clienti principali.
passo 5: memorizzare il file temporaneo in un file CSV permanente
In questo passaggio, il nostro compito è completato e otterrai i numeri cliente richiesti con tutti i dettagli. Prossimo, viene mostrato il codice completo che può essere eseguito in una volta:
Note finali
In questo articolo, abbiamo imparato a scrivere codice di base in PIG Latin. tuttavia, abbiamo limitato questo articolo a semplici istruzioni di filtraggio e ordinamento, parleremo anche di fusioni più complesse e altre dichiarazioni in alcuni dei prossimi articoli.
L'articolo ti è stato utile?? Condividi con noi tutte le applicazioni pratiche di PIG che hai trovato nel tuo lavoro. Fateci sapere i vostri pensieri su questo articolo nella casella sottostante..