UiPath Web Scraping | Web Scraping con lo strumento UiPath RPA

Contenuti

Questo post è stato reso pubblico come parte del Blogathon sulla scienza dei dati.

Il mondo si sta muovendo velocemente verso l'IA, quindi è meglio che tu vada con il flusso. Questa linea rappresenta l'adattamento della tecnologia nel mondo reale per ottenere risultati migliori e più veloci.

INTRODUZIONE

Raschiatura web, estrazione dati web e raccolta web è la raccolta di dati dal web. In questi giorni, tutto e tutti hanno bisogno dei dati per funzionare. I dati sono il gioiello più prezioso nella gestione di qualsiasi organizzazione e la parte più impegnativa è raccogliere o raccogliere dati di qualità. Trovare i dati è buono; estraendolo ancora meglio; farlo usando l'automazione è perfetto.

Cos'è UiPath?

UiPath è uno strumento RPA. Ma aspetta, Cos'è l'RPA?

Cos'è l'RPA?

Citando dal sito UIPath:

L'automazione dei processi robotici è la tecnologia che oggi consente a chiunque di configurare software per computer. O in un altro modo, è un “robot” emulare e integrare le azioni di un essere umano che interagisce all'interno di sistemi digitali per eseguire una procedura aziendale. I robot RPA utilizzano l'interfaccia utente per acquisire dati e manipolare applicazioni come fanno gli umani. Interpretare, innescare risposte e comunicare con altri sistemi per eseguire un'ampia varietà di attività ripetitive.

Solo sostanzialmente meglio: un robot software RPA non dorme mai e non commette errori.

Sessione esperienziale

Realizzato in versioni

UiPath – 20.4.3

Facciamo il web scraping usando UiPath. Basta controllare il portale web per vedere i dati che si desidera estrarre e controllare l'elenco dei tag HTML principali e secondari per una migliore comprensione.

Passaggi da seguire per realizzare Web Scrape

  • Seleziona il portale web e i dati
  • Creare un Proietta nella directory desiderata
  • Crea un file di diagramma di flusso per il layout del flusso di scraping web
  • Progetta il flusso
  • Esegui il flusso di automazione
  • Apri il file Excel e controlla i dati raschiati

passo 1- Seleziona il portale web e i dati

Ho selezionato questo portale web “https://www.bullion-rates.com/gold/INR/2007-1-history.htm” e voglio estrarre i dati dai tassi d'oro insieme alle date.

passo 2- Crea un Progetto nella directory desiderata

Fornisci il nome, il percorso e una breve descrizione del tuo progetto.

passo 3- Crea un file di diagramma di flusso

Ora crea un file di diagramma di flusso per progettare il tuo flusso di scraping web.

passo 3- Progetta il flusso

un) Scegli il browser aperto nel pannello delle attività

B) Determinare la proprietà dell'esplorazione aperta

io) Scegli il tipo di browser come Cromo

ii) Imposta l'URL: inserisci il tuo URL tra virgolette qui Dati da grattare

iii) Scegli Nuova sessione come Certo

IV) Aggiungi un'attività di ritardo con un'estensione di 6 secondi nel formato di 00:00:06, affinché la pagina si carichi correttamente, c'è anche un'altra alternativa, Ma per ora, sto usando l'opzione di ritardo.

v) Scegli l'opzione Raccolta dati

un) Scegli l'opzione Articolo in arrivo

B) Seleziona l'opzione Avanti

C) Apparirà ora l'evidenziazione del selettore degli elementi, quindi seleziona l'oggetto. Una volta selezionati gli elementi, puoi vedere i dati di anteprima. Se i dati arrivano come previsto, seleziona il pulsante Fine; caso opposto, scegli di nuovo i dati.

D) Ora viene visualizzata una finestra pop-up che richiede lo scraping di più pagine, quindi se vuoi fare scraping multipagina, seleziona Sì e scegli l'elemento che ti reindirizzerà alla pagina successiva. Nel caso di oggi, Voglio grattare solo una pagina, quindi sto usando l'opzione No.

me) L'attività di estrazione dei dati apparirà nel layout del flusso. Seleziona l'attività Estrai dati strutturati "TABLE dtDGrid"’ e noterai due cose nelle proprietà

io) Il numero massimo predefinito di risultati è 100, puoi cambiarlo in base ai registri della pagina.

ii) Nella sezione output, puoi vedere che la variabile Tabella dati è Estrai tabella dati.

F) Ora, dobbiamo scrivere i dati raschiati in formato Excel. Quindi usiamo l'attività Write Range.

io) Il primo campo è per il percorso del foglio Excel, fornirlo in base alla posizione del foglio excel.

ii) Il secondo campo è per il nome del foglio e il nome della cella, fornire il nome del foglio tra virgolette e rimuovere il nome della cella. Per te creare il foglio e scrivere tutti i dati.

iii) L'ultimo campo è per il nome di una variabile, nel mio caso il nome della variabile è ExtractDataTable.

passo 4-Fonte Esegui il flusso di automazione

Fare clic sull'opzione Esegui o premere ctrl + f6 per eseguire il flusso di automazione.

passo 5- Apri il file Excel e controlla i dati raschiati

conclusione

Ho provato a spiegare il web scraping usando lo strumento RPA UiPath in un modo molto semplice, spero che questo possa essere d'aiuto.

Trova il codice completo su GitHub

Se hai domande sul codice o sul web scraping in generale, contattami a

Connettiti a Gyan su Linkedin

Ci rivedremo con qualcosa di nuovo.

Fino ad allora,

Codifica felice ..!

Il supporto mostrato in questo post non è di proprietà di DataPeaker e viene utilizzato a discrezione dell'autore.

Iscriviti alla nostra Newsletter

Non ti invieremo posta SPAM. Lo odiamo quanto te.