Grattage Web UiPath | Web Scraping avec l'outil RPA UiPath

Contenu

Ce message a été rendu public dans le cadre de la Blogathon sur la science des données.

Le monde évolue rapidement vers l'IA, alors tu ferais mieux de suivre le courant. Cette ligne représente l'adaptation de la technologie dans le monde réel pour obtenir des résultats meilleurs et plus rapides.

INTRODUCTION

Grattage Web, extraction de données Web et collecte Web est la collecte de données à partir du Web. Ces jours, tout et tout le monde a besoin de données pour fonctionner. Les données sont le joyau le plus précieux dans la gestion de toute organisation et la partie la plus difficile est de collecter ou de collecter des données de qualité. Trouver les données, c'est bien; l'extraire encore mieux; le faire en utilisant l'automatisation est parfait.

Qu'est-ce qu'UiPath?

UiPath est un outil RPA. Mais attendez, Qu'est-ce que la RPA?

Qu'est-ce que la RPA?

Citation du site UIPath:

L'automatisation des processus robotiques est la technologie qui permet aujourd'hui à quiconque de configurer un logiciel informatique. Ou en d'autres termes, c'est un “robot” émuler et intégrer les actions d'un être humain qui interagit au sein de systèmes numériques pour exécuter une procédure commerciale. Les robots RPA utilisent l'interface utilisateur pour capturer des données et manipuler des applications comme le font les humains. Interpréter, déclencher des réponses et communiquer avec d'autres systèmes pour effectuer une grande variété de tâches répétitives.

Seulement nettement mieux: un robot logiciel RPA ne dort jamais et ne fait aucune erreur.

Séance expérientielle

Fabriqué en versions

UiPath – 20.4.3

Faisons du scraping Web en utilisant UiPath. Consultez simplement le portail Web pour voir les données que vous souhaitez extraire et vérifiez la liste des balises HTML majeures et mineures pour une meilleure compréhension.

Étapes à suivre pour faire Web Scrape

  • Sélectionnez le portail Web et les données
  • Créer un Projeter dans le répertoire de votre choix
  • Créer un fichier d'organigramme pour la mise en page du flux de scraping Web
  • Concevoir le flux
  • Exécuter le flux d'automatisation
  • Ouvrez le fichier Excel et vérifiez les données grattées

Paso 1- Sélectionnez le portail Web et les données

J'ai sélectionné ce portail web “https://www.bullion-rates.com/gold/INR/2007-1-history.htm” et je veux extraire les données des cours de l'or avec les dates.

Paso 2- Créer un Proprojeter dans le répertoire de votre choix

Fournissez le nom, le parcours et une brève description de votre projet.

Paso 3- Créer un fichier d'organigramme

Créez maintenant un fichier d'organigramme pour concevoir votre flux de raclage Web.

Paso 3- Concevoir le flux

une) Choisissez le navigateur ouvert dans le panneau des activités

b) Déterminer la propriété de l'exploration ouverte

je) Choisissez le type de navigateur comme Chrome

ii) Définir l'URL: insérez votre URL entre guillemets ici Des données à gratter

iii) Choisissez Nouvelle session comme Certain

iv) Ajouter une activité de retard avec une extension de 6 secondes au format de 00:00:06, pour que la page se charge correctement, il y a aussi une autre alternative, Mais pour l'instant, j'utilise l'option de retard.

v) Choisissez l'option Collecte de données

une) L'option Choisir l'article arrive

b) Sélectionnez l'option Suivant

c) La surbrillance du sélecteur d'élément apparaîtra maintenant, donc sélectionner l'article. Une fois les éléments sélectionnés, vous pouvez voir les données d'aperçu. Si les données arrivent comme prévu, sélectionnez le bouton Terminer; cas contraire, choisir à nouveau les données.

ré) Maintenant, une fenêtre contextuelle apparaît demandant le grattage de plusieurs pages, donc si vous voulez faire du scraping multi-pages, sélectionnez Oui et choisissez l'élément qui vous redirigera vers la page suivante. Dans le cas d'aujourd'hui, Je veux gratter une seule page, donc j'utilise l'option Non.

moi) L'activité d'extraction de données apparaîtra dans la mise en page du flux. Sélectionnez l'activité Extraire les données structurées 'TABLE dtDGrid’ et vous remarquerez deux choses dans les propriétés

je) Le nombre maximum de résultats par défaut est 100, vous pouvez le modifier en fonction des journaux de page.

ii) Dans la section de sortie, vous pouvez voir que la variable de la table de données est Extraire la table de données.

F) À présent, nous devons écrire les données grattées au format Excel. Nous utilisons donc l'activité Write Range.

je) Le premier champ est pour le chemin de la feuille Excel, fournissez-le en fonction de l'emplacement de la feuille excel.

ii) Le deuxième champ est pour le nom de la feuille et le nom de la cellule, indiquez le nom de la feuille entre guillemets et supprimez le nom de la cellule. A vous de créer la feuille et d'écrire toutes les données.

iii) Le dernier champ est pour un nom de variable, dans mon cas, le nom de la variable est ExtractDataTable.

Paso 4-La source Exécuter le flux d'automatisation

Cliquez sur l'option d'exécution ou appuyez sur ctrl + f6 pour exécuter le flux d'automatisation.

Paso 5- Ouvrez le fichier Excel et vérifiez les données grattées

conclusion

J'ai essayé d'expliquer le grattage Web à l'aide de l'outil RPA UiPath de manière très simple, J'espère que ça aide.

Retrouvez le code complet sur GitHub

Si vous avez des questions sur le code ou le web scraping en général, Contactez moi au

Connectez-vous à Gyan sur Linkedin

Nous nous reverrons avec quelque chose de nouveau.

Jusque là,

Bon codage ..!

Les médias présentés dans cet article ne sont pas la propriété de DataPeaker et sont utilisés à la discrétion de l'auteur.

Abonnez-vous à notre newsletter

Nous ne vous enverrons pas de courrier SPAM. Nous le détestons autant que vous.