Este post fue hecho público como parte del Blogatón de ciencia de datos.
El mundo se está moviendo rápidamente hacia la IA, por lo que es mejor seguir la corriente. Esta línea representa la adaptación de la tecnología en el mundo real para obtener resultados mejores y más rápidos.
INTRODUCCIÓN
Web Scraping, extracción de datos web y recolección web es la recopilación de datos de la web. En estos días, todo y todos necesitan datos para funcionar. Los datos son la joya más preciosa para administrar cualquier organización y la parte más desafiante es recolectar o recolectar datos de calidad. Hallar los datos es bueno; extrayéndolo aún mejor; hacerlo usando la automatización es perfecto.
¿Qué es UiPath?
UiPath es una herramienta de RPA. Pero espera, ¿qué es RPA?
¿Qué es RPA?
Citando del sitio de UIPath:
La automatización robótica de procesos es la tecnología que en la actualidad posibilita a cualquier persona configurar software de computadora. O dicho de otra forma, es un «robot» para emular e integrar las acciones de un ser humano que interactúa dentro de los sistemas digitales para ejecutar un procedimiento empresarial. Los robots RPA usan la interfaz de usuario para capturar datos y manipular aplicaciones como lo hacen los humanos. Interpretan, desencadenan respuestas y se comunican con otros sistemas para realizar una amplia variedad de tareas repetitivas.
Solo que sustancialmente mejor: un robot de software RPA nunca duerme y no comete errores.
SesiónLa "Sesión" es un concepto clave en el ámbito de la psicología y la terapia. Se refiere a un encuentro programado entre un terapeuta y un cliente, donde se exploran pensamientos, emociones y comportamientos. Estas sesiones pueden variar en duración y frecuencia, y su objetivo principal es facilitar el crecimiento personal y la resolución de problemas. La efectividad de las sesiones depende de la relación entre el terapeuta y el... experiencial
Realizado en versiones
UiPath – 20.4.3
Realicemos web scraping usando UiPath. Simplemente consulte el portal web para ver los datos que desea extraer y consulte la lista de etiquetas HTML principales y secundarias para una mejor comprensión.
Pasos a seguir para hacer Web Scrape
- Seleccione el portal web y los datos
- Crear un Proyecte en su directorio deseado
- Cree un archivo de diagrama de flujo para el diseño de flujo de raspado web
- Diseña el flujo
- Ejecute el flujo de automatización
- Abra el archivo de Excel y verifique los datos raspados
Paso 1- Seleccione el portal web y los datos
Seleccioné este portal web «https://www.bullion-rates.com/gold/INR/2007-1-history.htm» y quiero extraer datos de las tasas de oro junto con las fechas.
Paso 2- Crea un Project en su directorio deseado
Proporcione el nombre, la ruta y una breve descripción de su proyecto.
Paso 3- Crea un archivo de diagrama de flujo
Ahora cree un archivo de diagrama de flujo para diseñar su flujo de raspado web.
Paso 3- Diseñe el flujo
a) Elija el navegador abierto en el panelUn panel es un grupo de expertos que se reúne para discutir y analizar un tema específico. Estos foros son comunes en conferencias, seminarios y debates públicos, donde los participantes comparten sus conocimientos y perspectivas. Los paneles pueden abordar diversas áreas, desde la ciencia hasta la política, y su objetivo es fomentar el intercambio de ideas y la reflexión crítica entre los asistentes.... de actividades
b) Determinar la propiedad de la exploración abierta
i) Elija el tipo de navegador como Cromo
ii) Establezca la URL: inserte su URL entre comillas aquí Datos para raspar
iii) Elija Nueva sesión como Cierto
iv) Agregue una actividad de retraso con una extensión de 6 segundos en el formato de 00:00:06, para que la página se cargue correctamente, además hay otra alternativa, pero por ahora, estoy usando la opción de retraso.
v) Elija la opción Recolección de datos
a) Se acerca la opción Elegir elemento
b) Seleccione la opción Siguiente
c) Ahora aparecerá el resaltador del selector de ítems, por lo tanto seleccione el elemento. Una vez seleccionados los ítems, puede ver los datos de vista previa. Si los datos llegan como se esperaba, seleccione el botón Finalizar; caso contrario, vuelva a elegir los datos.
d) Ahora aparece un cuadro emergente que solicita el raspado de varias páginas, por lo que si desea realizar el raspado de varias páginas, seleccione Sí y elija el elemento que lo redireccionará a la página siguiente. En el caso de hoy, quiero raspar solo una página, por lo tanto estoy usando la opción No.
mi) La actividad de extracción de datos aparecerá en el diseño de flujo. Seleccione la actividad Extraer datos estructurados ‘TABLE dtDGrid’ y podrá notar dos cosas en las propiedades
i) El número máximo de resultados predeterminado es 100, puede cambiarlo según los registros de la página.
ii) En la sección de salida, puede ver que la variableEn estadística y matemáticas, una "variable" es un símbolo que representa un valor que puede cambiar o variar. Existen diferentes tipos de variables, como las cualitativas, que describen características no numéricas, y las cuantitativas, que representan cantidades numéricas. Las variables son fundamentales en experimentos y estudios, ya que permiten analizar relaciones y patrones entre diferentes elementos, facilitando la comprensión de fenómenos complejos.... Tabla de datos es Extraer tabla de datos.
F) Ahora, tenemos que escribir los datos raspados en formato Excel. Entonces usamos la actividad Write Range.
i) El primer campo es para la ruta de la hoja de Excel, proporciónelo según la ubicación de la hoja de Excel.
ii) El segundo campo es para el nombre de la hoja y el nombre de la celda, proporcione el nombre de la hoja entre comillas y elimine el nombre de la celda. Para que cree la hoja y escriba todos los datos.
iii) El último campo es para un nombre de variable, en mi caso el nombre de variable es ExtractDataTable.
Paso 4-Fuente Ejecute el flujo de automatización
Haga clic en la opción de ejecución o presione ctrl + f6 para ejecutar el flujo de automatización.
Paso 5- Abra el archivo de Excel y verifique los datos raspados
Conclusión
Traté de explicar el raspado web usando la herramienta RPA UiPath de una manera muy simple, espero que esto te ayude.
Encuentra el código completo en GitHub
Si tiene alguna duda sobre el código o el web scraping en general, comuníquese conmigo en
Nos volveremos a hallar con algo nuevo.
Hasta entonces,
Codificación feliz ..!
Los medios que se muestran en este post no son propiedad de DataPeaker y se usan a discreción del autor.