Cómo funciona el plegado de consultas: R Marketing

Share on facebook
Share on twitter
Share on linkedin
Share on telegram
Share on whatsapp

Contenidos

Nivel: principiantes

Power Query es un producto que posibilita a los usuarios comerciales extraer datos de cualquier fuente, limpiar y transformar esos datos y después cargar los datos modificados en una nueva ubicación, de forma general en una hoja de cálculo de Excel o un modelo de datos de Power BI. Power Query es muy fácil de aprender y la mayoría de las tareas se pueden completar usando los botones de los menús.

Cuando la fuente de datos que se va a cargar es un archivo o archivos, a modo de ejemplo, un csv (s), Power Query lee los datos de los archivos y procesa las tareas de transformación de forma directa dentro de Power Query. Esto está bien para tareas relativamente simples (a modo de ejemplo, borrar o cambiar el nombre de columnas) y archivos relativamente pequeños (digamos menos de 1 millón de filas). Pero pueden suceder cosas malas cuando intenta cargar decenas de millones de filas usando Power Query desde un archivo csv y después intenta realizar tareas ‘pesadas’, como ordenar, sobre los datos que se van a cargar. Para ordenar 10 millones de filas de un csv, Power Query primero necesitaría cargar cada registro en la memoria y después completar la tarea de ordenación desde allí. Aunque puede ser factible hacer esto, ciertamente no es el mejor enfoque.

Almacenamiento persistente

Power BI y Power Pivot para Excel no disponen su propio almacenamiento persistente de los datos de origen. Estos productos son una base de datos, pero son una base de datos de informes, no una base de datos de almacenamiento. Necesitará un lugar para guardar constantemente sus datos de origen fuera de Power BI y Power Pivot para Excel si desea poder actualizar sus datos en el futuro.

Desde luego, puede mantener sus archivos de origen (csv, xlsx) como almacenamiento persistente si tiene cantidades relativamente pequeñas de datos, pero si va a procesar muchos datos, verdaderamente debería considerar cargar los datos de origen en una base de datos relacional. Esto podría ser algo como Microsoft Access, pero mejor aún, podría utilizar algo como SQL Server si lo tiene disponible. Inclusive si no tiene acceso a SQL Server, podría considerar instalar SQL Server Express en su computadora portátil (es gratuito). Créame, SQL Server no es tan difícil de aprender (con YouTube) y es importante destacar el esfuerzo para administrar mejor su almacenamiento persistente de datos.

¿Qué es el plegado de consultas?

Dentro de Power Query, el término consulta plegable se refiere al procedimiento de realizar tareas complejas generadas por la interfaz de usuario de Power Query (como ordenar 10 millones de filas de datos) y empujar esas tareas a la base de datos para su ejecución. Me gusta pensar en Power Query “escribiendo” algún código SQL en una hoja de papel, doblando el papel por la mitad y pasándolo a la base de datos como un conjunto de instrucciones para su ejecución.

Power Query ejecutará automáticamente el plegado de consultas bajo ciertas condiciones, que incluyen:

  1. La fuente debe ser una base de datos que pueda aceptar una solicitud de plegado. Se incluyen la mayoría de las bases de datos relacionales. Además puede ser una fuente OData, SSAS y Google Analytics (gracias Miguel y Chris).
  2. Si comienza su consulta con el código SQL que escribió usted mismo, no se completarán más pasos dentro de Power Query.
  3. Una vez que realiza un paso que no se puede plegar, el plegado de consultas se detiene a lo largo del resto de la consulta.

¿Cómo sé si el plegado de consultas está activo?

Cuando utiliza Power Query, los pasos que produce se enumeran en el panel de «pasos aplicados» del lado derecho. Puede verificar si un paso de consulta ha generado plegamiento de consultas (o no) al verificar la existencia de código de consulta nativa dentro de ese paso. Para hacer esto, haga clic con el botón derecho en uno de los pasos de la consulta y después seleccione «ver consulta nativa». Si puede hacer esto, dicho de otra forma, si la opción Ver consulta nativa está habilitada, significa que Power Query ha realizado correctamente el plegado de consultas.

Haga el levantamiento pesado primero

Su objetivo al utilizar Power Query sobre una base de datos relacional debe ser hacer todo el trabajo pesado primero. Simplemente, desea asegurarse de que el plegado de consultas esté habilitado a lo largo del mayor tiempo factible para que las tareas más difíciles las realice la base de datos de manera más eficiente y no Power Query en sí. La mejor forma de comprobarlo es chequear si el último paso de la consulta utiliza el plegado de consultas. Si el último paso utiliza el plegado de consultas, cada paso utiliza el plegado de consultas. A pesar de esto, si descubre que el último paso no está usando el plegado de consultas, entonces debería trabajar en el listado de pasos aplicados para averiguar dónde se detuvo el plegado de consultas. Si es factible, cambie el orden de ejecución de sus pasos para que todas las tareas plegables se completen primero antes de completar cualquier paso que no se pueda plegar (a modo de ejemplo, columna dividida).

He creado un breve video para mostrar cómo funciona Query Folding y cómo verificar dónde se detiene el plegado (no hay sonido en este video, por lo tanto puedes verlo ahora 🙂).

Potencia tus habilidades

Puedes aprender estas cosas a partir de posts en línea, pero ¿por qué no superar tu aprendizaje (¿ves lo que hice allí?) Realizando una capacitación formal. Tengo un excelente curso de capacitación de Power Query en línea que le enseñará el plegado de consultas y mucho más con más de 7.5 horas de instrucción en video estructurado usando ejemplos del mundo real. Puede consultar mi curso de capacitación aquí => Power Query para Excel y Power BI – Capacitación en línea

Suscribite a nuestro Newsletter

No te enviaremos correo SPAM. Lo odiamos tanto como tú.