UiPath Web Scraping | Web Scraping com a ferramenta RPA UiPath

Conteúdo

Esta postagem foi tornada pública como parte do Data Science Blogathon.

O mundo está se movendo rapidamente em direção à IA, então é melhor você ir com o fluxo. Esta linha representa a adaptação da tecnologia no mundo real para obter resultados melhores e mais rápidos.

INTRODUÇÃO

Raspagem da web, extração de dados da web e coleta da web é a coleta de dados da web. Nos dias de hoje, tudo e todos precisam de dados para funcionar. Os dados são a joia mais preciosa na gestão de qualquer organização e a parte mais desafiadora é coletar ou coletar dados de qualidade. Encontrar os dados é bom; extraindo ainda melhor; fazer isso usando automação é perfeito.

O que é UiPath?

UiPath é uma ferramenta RPA. Mas espera, O que é RPA?

O que é RPA?

Citando do site UIPath:

A automação de processos robóticos é a tecnologia que hoje permite a qualquer pessoa configurar software de computador. Ou dito de outra forma, é um “robô” para emular e integrar as ações de um ser humano que interage com sistemas digitais para executar um procedimento de negócios. Os robôs RPA usam a interface do usuário para capturar dados e manipular aplicativos como humanos fazem. Interpretar, acionar respostas e comunicar-se com outros sistemas para realizar uma ampla variedade de tarefas repetitivas.

Apenas substancialmente melhor: um robô de software RPA nunca dorme e não comete erros.

Sessão experiencial

Fabricado em versões

UiPath – 20.4.3

Vamos fazer web scraping usando UiPath. Basta verificar o portal da web para ver os dados que deseja extrair e verificar a lista de tags HTML principais e secundárias para melhor compreensão.

Passos a seguir para fazer Web Scrape

  • Selecione o portal da web e dados
  • Criar uma Projete para o diretório desejado
  • Crie um arquivo de fluxograma para layout de fluxo de web scraping
  • Projete o fluxo
  • Execute o fluxo de automação
  • Abra o arquivo do Excel e verifique os dados copiados

Paso 1- Selecione o portal da web e dados

Eu selecionei este portal da web “https://www.bullion-rates.com/gold/INR/2007-1-history.htm” e quero extrair dados de taxas de ouro junto com datas.

Paso 2- Criar uma Prójeto no seu diretório desejado

Forneça o nome, o caminho e uma breve descrição do seu projeto.

Paso 3- Crie um arquivo de fluxograma

Agora crie um arquivo de fluxograma para projetar seu fluxo de web scraping.

Paso 3- Projete o fluxo

uma) Elija el navegador abierto en el painel de actividades

b) Determinar a propriedade da exploração aberta

eu) Escolha o tipo de navegador como cromada

ii) Defina o URL: insira seu url entre aspas aqui Dados para arranhar

iii) Escolha uma nova sessão como Certo

4) Adicione uma atividade de atraso com uma extensão de 6 segundos no formato de 00:00:06, para a página carregar corretamente, há também outra alternativa, Mas para agora, estou usando a opção de atraso.

v) Escolha a opção de coleta de dados

uma) A opção de escolha do item está chegando

b) Selecione a próxima opção

c) O destaque do seletor de item aparecerá agora, portanto, selecione o item. Assim que os itens forem selecionados, você pode ver os dados de visualização. Se os dados chegarem conforme o esperado, selecione o botão Concluir; caso contrário, escolha os dados novamente.

d) Agora, uma caixa pop-up aparece solicitando a extração de várias páginas, então, se você quiser fazer scraping de várias páginas, selecione Sim e escolha o item que irá redirecioná-lo para a próxima página. No caso de hoje, Eu quero raspar apenas uma página, portanto, estou usando a opção Não.

mim) A atividade de extração de dados aparecerá no layout de fluxo. Selecione a atividade de extração de dados estruturados ‘TABLE dtDGrid’ e você notará duas coisas nas propriedades

eu) O número máximo padrão de resultados é 100, você pode alterá-lo com base nos registros da página.

ii) Na seção de saída, puede ver que la variável Tabla de datos es Extraer tabla de datos.

F) Agora, temos que escrever os dados copiados no formato Excel. Então, usamos a atividade Write Range.

eu) O primeiro campo é para o caminho da planilha Excel, fornecê-lo com base na localização da planilha do excel.

ii) O segundo campo é para o nome da planilha e o nome da célula, forneça o nome da folha entre aspas e remova o nome da célula. Para você criar a planilha e escrever todos os dados.

iii) O último campo é para um nome de variável, no meu caso, o nome da variável é ExtractDataTable.

Paso 4-Fonte Execute o fluxo de automação

Clique na opção de execução ou pressione ctrl + f6 para executar o fluxo de automação.

Paso 5- Abra o arquivo do Excel e verifique os dados copiados

conclusão

Tentei explicar o web scraping usando a ferramenta RPA UiPath de uma maneira muito simples, Eu espero que isso ajude.

Encontre o código completo em GitHub

Se você tiver alguma dúvida sobre o código ou web scraping em geral, entre em contato comigo em

Conecte-se a Gyan no Linkedin

Nos encontraremos novamente com algo novo.

Até então,

Boa codificação ..!

A mídia mostrada nesta postagem não é propriedade da DataPeaker e é usada a critério do autor.

Assine a nossa newsletter

Nós não enviaremos SPAM para você. Nós odiamos isso tanto quanto você.