UiPath Web Scraping | Web Scraping con la herramienta RPA UiPath

Contenidos

Este post fue hecho público como parte del Blogatón de ciencia de datos.

El mundo se está moviendo rápidamente hacia la IA, por lo que es mejor seguir la corriente. Esta línea representa la adaptación de la tecnología en el mundo real para obtener resultados mejores y más rápidos.

INTRODUCCIÓN

Web Scraping, extracción de datos web y recolección web es la recopilación de datos de la web. En estos días, todo y todos necesitan datos para funcionar. Los datos son la joya más preciosa para administrar cualquier organización y la parte más desafiante es recolectar o recolectar datos de calidad. Hallar los datos es bueno; extrayéndolo aún mejor; hacerlo usando la automatización es perfecto.

¿Qué es UiPath?

UiPath es una herramienta de RPA. Pero espera, ¿qué es RPA?

¿Qué es RPA?

Citando del sitio de UIPath:

La automatización robótica de procesos es la tecnología que en la actualidad posibilita a cualquier persona configurar software de computadora. O dicho de otra forma, es un «robot» para emular e integrar las acciones de un ser humano que interactúa dentro de los sistemas digitales para ejecutar un procedimiento empresarial. Los robots RPA usan la interfaz de usuario para capturar datos y manipular aplicaciones como lo hacen los humanos. Interpretan, desencadenan respuestas y se comunican con otros sistemas para realizar una amplia variedad de tareas repetitivas.

Solo que sustancialmente mejor: un robot de software RPA nunca duerme y no comete errores.

Sesión experiencial

Realizado en versiones

UiPath – 20.4.3

Realicemos web scraping usando UiPath. Simplemente consulte el portal web para ver los datos que desea extraer y consulte la lista de etiquetas HTML principales y secundarias para una mejor comprensión.

Pasos a seguir para hacer Web Scrape

  • Seleccione el portal web y los datos
  • Crear un Proyecte en su directorio deseado
  • Cree un archivo de diagrama de flujo para el diseño de flujo de raspado web
  • Diseña el flujo
  • Ejecute el flujo de automatización
  • Abra el archivo de Excel y verifique los datos raspados

Paso 1- Seleccione el portal web y los datos

Seleccioné este portal web «https://www.bullion-rates.com/gold/INR/2007-1-history.htm» y quiero extraer datos de las tasas de oro junto con las fechas.

Paso 2- Crea un Project en su directorio deseado

Proporcione el nombre, la ruta y una breve descripción de su proyecto.

Paso 3- Crea un archivo de diagrama de flujo

Ahora cree un archivo de diagrama de flujo para diseñar su flujo de raspado web.

Paso 3- Diseñe el flujo

a) Elija el navegador abierto en el panel de actividades

b) Determinar la propiedad de la exploración abierta

i) Elija el tipo de navegador como Cromo

ii) Establezca la URL: inserte su URL entre comillas aquí Datos para raspar

iii) Elija Nueva sesión como Cierto

iv) Agregue una actividad de retraso con una extensión de 6 segundos en el formato de 00:00:06, para que la página se cargue correctamente, además hay otra alternativa, pero por ahora, estoy usando la opción de retraso.

v) Elija la opción Recolección de datos

a) Se acerca la opción Elegir elemento

b) Seleccione la opción Siguiente

c) Ahora aparecerá el resaltador del selector de ítems, por lo tanto seleccione el elemento. Una vez seleccionados los ítems, puede ver los datos de vista previa. Si los datos llegan como se esperaba, seleccione el botón Finalizar; caso contrario, vuelva a elegir los datos.

d) Ahora aparece un cuadro emergente que solicita el raspado de varias páginas, por lo que si desea realizar el raspado de varias páginas, seleccione Sí y elija el elemento que lo redireccionará a la página siguiente. En el caso de hoy, quiero raspar solo una página, por lo tanto estoy usando la opción No.

mi) La actividad de extracción de datos aparecerá en el diseño de flujo. Seleccione la actividad Extraer datos estructurados ‘TABLE dtDGrid’ y podrá notar dos cosas en las propiedades

i) El número máximo de resultados predeterminado es 100, puede cambiarlo según los registros de la página.

ii) En la sección de salida, puede ver que la variable Tabla de datos es Extraer tabla de datos.

F) Ahora, tenemos que escribir los datos raspados en formato Excel. Entonces usamos la actividad Write Range.

i) El primer campo es para la ruta de la hoja de Excel, proporciónelo según la ubicación de la hoja de Excel.

ii) El segundo campo es para el nombre de la hoja y el nombre de la celda, proporcione el nombre de la hoja entre comillas y elimine el nombre de la celda. Para que cree la hoja y escriba todos los datos.

iii) El último campo es para un nombre de variable, en mi caso el nombre de variable es ExtractDataTable.

Paso 4-Fuente Ejecute el flujo de automatización

Haga clic en la opción de ejecución o presione ctrl + f6 para ejecutar el flujo de automatización.

Paso 5- Abra el archivo de Excel y verifique los datos raspados

Conclusión

Traté de explicar el raspado web usando la herramienta RPA UiPath de una manera muy simple, espero que esto te ayude.

Encuentra el código completo en GitHub

Si tiene alguna duda sobre el código o el web scraping en general, comuníquese conmigo en

Conéctese a Gyan en Linkedin

Nos volveremos a hallar con algo nuevo.

Hasta entonces,

Codificación feliz ..!

Los medios que se muestran en este post no son propiedad de DataPeaker y se usan a discreción del autor.

Suscribite a nuestro Newsletter

No te enviaremos correo SPAM. Lo odiamos tanto como tú.

)?$/gm,"$1")],{type:"text/javascript"}))}catch(e){d="data:text/javascript;base64,"+btoa(t.replace(/^(?:)?$/gm,"$1"))}return d}-->