Ce message a été rendu public dans le cadre de la Blogathon sur la science des données.
Le monde évolue rapidement vers l'IA, alors tu ferais mieux de suivre le courant. Cette ligne représente l'adaptation de la technologie dans le monde réel pour obtenir des résultats meilleurs et plus rapides.
INTRODUCTION
Grattage Web, extraction de données Web et collecte Web est la collecte de données à partir du Web. Ces jours, tout et tout le monde a besoin de données pour fonctionner. Les données sont le joyau le plus précieux dans la gestion de toute organisation et la partie la plus difficile est de collecter ou de collecter des données de qualité. Trouver les données, c'est bien; l'extraire encore mieux; le faire en utilisant l'automatisation est parfait.
Qu'est-ce qu'UiPath?
UiPath est un outil RPA. Mais attendez, Qu'est-ce que la RPA?
Qu'est-ce que la RPA?
Citation du site UIPath:
L'automatisation des processus robotiques est la technologie qui permet aujourd'hui à quiconque de configurer un logiciel informatique. Ou en d'autres termes, c'est un “robot” émuler et intégrer les actions d'un être humain qui interagit au sein de systèmes numériques pour exécuter une procédure commerciale. Les robots RPA utilisent l'interface utilisateur pour capturer des données et manipuler des applications comme le font les humains. Interpréter, déclencher des réponses et communiquer avec d'autres systèmes pour effectuer une grande variété de tâches répétitives.
Seulement nettement mieux: un robot logiciel RPA ne dort jamais et ne fait aucune erreur.
SessionLa "Session" C’est un concept clé dans le domaine de la psychologie et de la thérapie. Fait référence à une rencontre programmée entre un thérapeute et un client, où les pensées sont explorées, Émotions et comportements. La durée et la fréquence de ces séances peuvent varier, et son objectif principal est de faciliter la croissance personnelle et la résolution de problèmes. L’efficacité des séances dépend de la relation entre le thérapeute et le thérapeute.. experiencial
Fabriqué en versions
UiPath – 20.4.3
Faisons du scraping Web en utilisant UiPath. Consultez simplement le portail Web pour voir les données que vous souhaitez extraire et vérifiez la liste des balises HTML majeures et mineures pour une meilleure compréhension.
Étapes à suivre pour faire Web Scrape
- Sélectionnez le portail Web et les données
- Créer un Projeter dans le répertoire de votre choix
- Créer un fichier d'organigramme pour la mise en page du flux de scraping Web
- Concevoir le flux
- Exécuter le flux d'automatisation
- Ouvrez le fichier Excel et vérifiez les données grattées
Paso 1- Sélectionnez le portail Web et les données
J'ai sélectionné ce portail web “https://www.bullion-rates.com/gold/INR/2007-1-history.htm” et je veux extraire les données des cours de l'or avec les dates.
Paso 2- Créer un Proprojeter dans le répertoire de votre choix
Fournissez le nom, le parcours et une brève description de votre projet.
Paso 3- Créer un fichier d'organigramme
Créez maintenant un fichier d'organigramme pour concevoir votre flux de raclage Web.
Paso 3- Concevoir le flux
une) Elija el navegador abierto en el panneauUn panel est un groupe d’experts qui se réunit pour discuter et analyser un sujet spécifique. Ces forums sont courants lors des conférences, Séminaires et débats publics, où les participants partagent leurs connaissances et leurs points de vue. Les panneaux peuvent aborder une variété de domaines, De la science à la politique, et son objectif est d’encourager l’échange d’idées et la réflexion critique entre les participants.... de actividades
b) Déterminer la propriété de l'exploration ouverte
je) Choisissez le type de navigateur comme Chrome
ii) Définir l'URL: insérez votre URL entre guillemets ici Des données à gratter
iii) Choisissez Nouvelle session comme Certain
iv) Ajouter une activité de retard avec une extension de 6 secondes au format de 00:00:06, pour que la page se charge correctement, il y a aussi une autre alternative, Mais pour l'instant, j'utilise l'option de retard.
v) Choisissez l'option Collecte de données
une) L'option Choisir l'article arrive
b) Sélectionnez l'option Suivant
c) La surbrillance du sélecteur d'élément apparaîtra maintenant, donc sélectionner l'article. Une fois les éléments sélectionnés, vous pouvez voir les données d'aperçu. Si les données arrivent comme prévu, sélectionnez le bouton Terminer; cas contraire, choisir à nouveau les données.
ré) Maintenant, une fenêtre contextuelle apparaît demandant le grattage de plusieurs pages, donc si vous voulez faire du scraping multi-pages, sélectionnez Oui et choisissez l'élément qui vous redirigera vers la page suivante. Dans le cas d'aujourd'hui, Je veux gratter une seule page, donc j'utilise l'option Non.
moi) L'activité d'extraction de données apparaîtra dans la mise en page du flux. Sélectionnez l'activité Extraire les données structurées 'TABLE dtDGrid’ et vous remarquerez deux choses dans les propriétés
je) Le nombre maximum de résultats par défaut est 100, vous pouvez le modifier en fonction des journaux de page.
ii) Dans la section de sortie, puede ver que la variableEn statistique et en mathématiques, ongle "variable" est un symbole qui représente une valeur qui peut changer ou varier. Il existe différents types de variables, et qualitatif, qui décrivent des caractéristiques non numériques, et quantitatif, représentation de grandeurs numériques. Les variables sont fondamentales dans les expériences et les études, puisqu’ils permettent l’analyse des relations et des modèles entre différents éléments, faciliter la compréhension de phénomènes complexes.... Tabla de datos es Extraer tabla de datos.
F) À présent, nous devons écrire les données grattées au format Excel. Nous utilisons donc l'activité Write Range.
je) Le premier champ est pour le chemin de la feuille Excel, fournissez-le en fonction de l'emplacement de la feuille excel.
ii) Le deuxième champ est pour le nom de la feuille et le nom de la cellule, indiquez le nom de la feuille entre guillemets et supprimez le nom de la cellule. A vous de créer la feuille et d'écrire toutes les données.
iii) Le dernier champ est pour un nom de variable, dans mon cas, le nom de la variable est ExtractDataTable.
Paso 4-La source Exécuter le flux d'automatisation
Cliquez sur l'option d'exécution ou appuyez sur ctrl + f6 pour exécuter le flux d'automatisation.
Paso 5- Ouvrez le fichier Excel et vérifiez les données grattées
conclusion
J'ai essayé d'expliquer le grattage Web à l'aide de l'outil RPA UiPath de manière très simple, J'espère que ça aide.
Retrouvez le code complet sur GitHub
Si vous avez des questions sur le code ou le web scraping en général, Contactez moi au
Connectez-vous à Gyan sur Linkedin
Nous nous reverrons avec quelque chose de nouveau.
Jusque là,
Bon codage ..!
Les médias présentés dans cet article ne sont pas la propriété de DataPeaker et sont utilisés à la discrétion de l'auteur.