Buscar y eliminar fotos duplicadas con Power Query

Share on facebook
Share on twitter
Share on linkedin
Share on telegram
Share on whatsapp

Contenidos

Estaba tratando de limpiar mi disco duro en mi PC el otro día. Utilizo un programa llamado WinDirStat para mostrarme gráficamente lo que está ocupando espacio (aparte, este es un gran software y puedes descargarlo aquí). Después de ejecutar el software, noté que había almacenado fotos de mi teléfono en algunos lugares diferentes. Cada una de las 3 secciones a continuación son imágenes de mi teléfono almacenadas en diferentes ubicaciones

image_thumb-6246979

Desafortunadamente, los nombres de los archivos eran diferentes en las diferentes ubicaciones, como se puede ver uno al lado del otro a continuación. Creo que esto se debe a que uso un software diferente para transferir las fotos de vez en cuando. Apple realmente no hace todo lo posible para hacerlo fácil, por supuesto.

image_thumb-1-6473100

Entonces, el problema es, ¿cómo podría eliminar los archivos duplicados sin eliminar ninguna foto que fuera realmente diferente? Existen excelentes herramientas de gestión de imágenes; personalmente, me encanta EXIF ​​Tool https://www.sno.phy.queensu.ca/~phil/exiftool/ Pero quería usar Power Query para resolver este problema.

El enfoque que tomé

  1. Cree una consulta que se vincule a cada carpeta con Power Query para Excel y configure la lista en «no cargar».
  2. Centrándome en 1 carpeta a la vez, me uní a la lista en la primera consulta a la lista de otra consulta para eliminar los duplicados.
  3. Luego generé un archivo por lotes a partir de la lista resultante de archivos coincidentes (duplicados).
  4. Ejecuté el archivo por lotes para eliminar los duplicados

Cargue cada carpeta de nombres de archivo

Este es un material bastante estándar de Power Query. Simplemente seleccione, Datos Obtener datos Desde archivo Desde carpeta. Una vez creada la consulta, configúrela en «no cargar». Repita para cada ubicación de la carpeta principal. Lo único que hice que fue un poco «no estándar» fue extraer el tamaño del archivo de la columna de atributos. Simplemente hice clic en el botón expandir (1) y luego deseleccioné todas las opciones manteniendo el tamaño (2 a continuación).

image_thumb-2-8343719

Fusionar dos consultas

Lo siguiente fue fusionar 2 consultas. Hice esto seleccionando 3 columnas para que coincidan en la combinación. Supongo que si la extensión, la fecha de modificación y el tamaño son todos iguales, entonces debe ser la misma imagen. Hice una «unión interna», por lo que solo mantuve los que coinciden.

image_thumb-3-9443600

Tenga en cuenta que no utilicé la fecha de creación, ya que esta es la fecha en que se copió el archivo en mi PC en lugar de la fecha en que se creó la foto en el teléfono.

En esta consulta de combinación, también creé una ruta completa para cada archivo que quería eliminar combinando la ruta y la columna de nombre de archivo como se muestra a continuación.

image_thumb-4-6909548

Y luego agregué el comando de DOS del (incluido un espacio) al principio de los nombres de los archivos.

image_thumb-5-2960917

Esto me dejó con los comandos por lotes exactos que necesitaba para eliminar los duplicados

image_thumb-6-9727121

Antes de continuar, decidí hacer algunas comprobaciones rápidas para asegurarme de que lo que había hecho era lo que esperaba. Dupliqué la consulta de combinación. En esta nueva copia, edité la consulta para darme una lista lado a lado de la ruta completa del archivo y los nombres para ambas ubicaciones de carpeta. Luego podría usar esta lista para verificar las imágenes.

image_thumb-7-4401783

Escogí algunas filas al azar y verifiqué ambas imágenes. Todo estuvo bien.

Crear el archivo por lotes

Esto es bastante simple. Simplemente corté y pegué la lista «para eliminar» en el bloc de notas y luego guardé el archivo. Llamé al archivo c: users matt delme.bat

image_thumb-8-2551069

Finalmente ejecuté el archivo por lotes (lo encontré en el Explorador de Windows y hice doble clic para ejecutarlo). En realidad, el primer intento no funcionó porque tuve que agregar comillas dobles alrededor de los nombres de los archivos. Lo arreglé en mi consulta y repetí el proceso. Luego volví a mi workbook de Power Query y presioné actualizar, no más duplicados

Antes de utilizar 416,6 GB de espacio

Después de las eliminaciones, fue de 373,3 GB, un ahorro de espacio de más de 40 GB; bien vale la pena el esfuerzo.

¿Quiere aprender Power Query de forma estructurada?

Mi Capacitación en línea de Power Query El curso consta de 7.5 horas de material de capacitación en video en línea que le enseñará todo lo que necesita saber sobre el uso de esta fabulosa herramienta tanto para Power BI como para Excel. Puede ver algunos videos de muestra gratuitos y obtener más información sobre el registro siguiendo el enlace de arriba.

!function(f,b,e,v,n,t,s)
{if(f.fbq)return;n=f.fbq=function(){n.callMethod?
n.callMethod.apply(n,arguments):n.queue.push(arguments)};
if(!f._fbq)f._fbq=n;n.push=n;n.loaded=!0;n.version=’2.0′;
n.queue=[];t=b.createElement(e);t.async=!0;
t.src=v;s=b.getElementsByTagName(e)[0];
s.parentNode.insertBefore(t,s)}(window,document,’script’,
‘https://connect.facebook.net/en_US/fbevents.js’);
fbq(‘init’, ‘639916389503636’);
fbq(‘track’, ‘PageView’);

Suscribite a nuestro Newsletter

No te enviaremos correo SPAM. Lo odiamos tanto como tú.