En el artículo anterior, discutimos el ecosistema de Hadoop (enlace). También hablamos sobre las dos herramientas de Hadoop más utilizadas, es decir, PIG y HIVE. Ambos idiomas tienen sus seguidores y no existe una preferencia específica entre los dos, en general. Sin embargo, en los casos en los que el equipo que utiliza estas herramientas está más orientado a la programación, a veces se elige PIG por encima de HIVE, ya que les da más libertad durante la codificación. En los casos en que el equipo no sea muy experto en programación, HIVE probablemente sea una mejor opción, dada su similitud con las consultas SQL. Las consultas sobre PIG están escritas en PIG latin. En este artículo le presentaremos PIG Latin utilizando un sencillo ejemplo práctico.
Instalación de PIG
El motor PIG opera en el servidor del cliente. Es simplemente un intérprete que convierte su código simple en operaciones complejas de reducción de mapas. Este mapreduce ahora se maneja en la red distribuida de Hadoop. Tenga en cuenta que toda la red ni siquiera sabrá que la consulta se ejecutó desde un motor PIG. PIG solo permanece en la interfaz de usuario y está destinado a facilitar al usuario la codificación.
Siga los siguientes pasos en su shell para instalar PIG:
Si está pensando en ejecutar Pig en Windows, solo debería hacer que una máquina virtual se ejecute en Linux y luego trabajar en ella. Puede utilizar VMWare Player u Oracle VirtualBox para iniciar uno.
Después de instalar el paquete PIG, puede comenzar con el grunt shell.
Una vez que vea «gruñido>», puede comenzar a codificar en PIG.
Antecedentes del caso
Usted es el líder de análisis en una tienda minorista llamada XYZ. XYZ mantiene un registro de todos los clientes que compran en esta tienda. Su tarea para este ejercicio es crear una nueva columna llamada impuesto sobre la venta, que es el 5% de la venta. Luego, filtre las personas para quienes el monto del impuesto es menor a $ 35. Una vez realizada esta subconjunto, elija los 2 principales clientes con el menor número de clientes. A continuación se muestra una tabla de muestra para la tienda minorista que se guarda en forma de .csv.
Escribir una consulta en PIG Latin
Construyamos esta consulta paso a paso. Los siguientes son los pasos que debe seguir:
Paso 1 : Cargue el conjunto de datos en el formato comprensible de PIG y almacenamiento temporal desde donde la consulta PIG puede hacer referencia directamente a la tabla
Tenga en cuenta que el comando anterior no carga la variable edad. Mientras trabaja con Big Data, debe ser muy específico sobre las variables que necesita usar y, por lo tanto, asegúrese de elegir solo aquellas variables que son importantes para usted en el código.
Paso 2: crea una nueva tabla con valores de impuestos.
El comando anterior genera una nueva tabla llamada impuestos que tiene las tres columnas. La tabla ahora tendrá un aspecto similar al siguiente:
Paso 3: Subconjine toda la tabla en el cliente con un valor de impuestos por debajo de $ 35.
El resultado de este comando se verá elija las celdas amarillas en la siguiente tabla:
Paso 4: Ahora necesitamos ordenar la tabla de subconjuntos por Cliente (ID) y elegir los dos Clientes principales.
Paso 5: almacene el archivo temporal en un archivo csv permanente
En este paso, nuestra tarea se completa y obtendrá los números de cliente requeridos con todos los detalles. A continuación, se muestra el código completo que se puede ejecutar de una vez:
Notas finales
En este artículo, aprendimos cómo escribir códigos básicos en PIG Latin. Sin embargo, hemos restringido este artículo a declaraciones simples de filtrado y ordenación, también hablaremos sobre fusiones más complejas y otras declaraciones en algunos de los próximos artículos.
¿Le resultó útil el artículo? Comparta con nosotros cualquier aplicación práctica de PIG que haya encontrado en su trabajo. Háganos saber su opinión sobre este artículo en el cuadro a continuación.
Si le gusta lo que acaba de leer y desea continuar con su aprendizaje sobre análisis, suscríbete a nuestros correos electrónicos, Síguenos en Twitter o como nuestro pagina de Facebook.
Relacionado
Posts Relacionados:
- Principales empresas emergentes de IA | Startups de IA a tener en cuenta en 2021
- Reconocimiento facial usando OpenCV | Crea un sistema de reconocimiento facial
- ¿Por qué son necesarias las GPU para entrenar modelos de aprendizaje profundo?
- Nube de palabras en Python | ¿Cómo construir Word Cloud en Python?