UiPath Web Scraping | Web Scraping com a ferramenta RPA UiPath

Conteúdo

Esta postagem foi tornada pública como parte do Data Science Blogathon.

O mundo está se movendo rapidamente em direção à IA, então é melhor você ir com o fluxo. Esta linha representa a adaptação da tecnologia no mundo real para obter resultados melhores e mais rápidos.

INTRODUÇÃO

Raspagem da web, extração de dados da web e coleta da web é a coleta de dados da web. Nos dias de hoje, tudo e todos precisam de dados para funcionar. Os dados são a joia mais preciosa na gestão de qualquer organização e a parte mais desafiadora é coletar ou coletar dados de qualidade. Encontrar os dados é bom; extraindo ainda melhor; fazer isso usando automação é perfeito.

O que é UiPath?

UiPath é uma ferramenta RPA. Mas espera, O que é RPA?

O que é RPA?

Citando do site UIPath:

A automação de processos robóticos é a tecnologia que hoje permite a qualquer pessoa configurar software de computador. Ou dito de outra forma, é um “robô” para emular e integrar as ações de um ser humano que interage com sistemas digitais para executar um procedimento de negócios. Os robôs RPA usam a interface do usuário para capturar dados e manipular aplicativos como humanos fazem. Interpretar, acionar respostas e comunicar-se com outros sistemas para realizar uma ampla variedade de tarefas repetitivas.

Apenas substancialmente melhor: um robô de software RPA nunca dorme e não comete erros.

Sessão Experiencial

Fabricado em versões

UiPath – 20.4.3

Vamos fazer web scraping usando UiPath. Basta verificar o portal da web para ver os dados que deseja extrair e verificar a lista de tags HTML principais e secundárias para melhor compreensão.

Passos a seguir para fazer Web Scrape

  • Selecione o portal da web e dados
  • Criar uma Projete para o diretório desejado
  • Crie um arquivo de fluxograma para layout de fluxo de web scraping
  • Projete o fluxo
  • Execute o fluxo de automação
  • Abra o arquivo do Excel e verifique os dados copiados

Paso 1- Selecione o portal da web e dados

Eu selecionei este portal da web “https://www.bullion-rates.com/gold/INR/2007-1-history.htm” e quero extrair dados de taxas de ouro junto com datas.

Paso 2- Criar uma Prójeto no seu diretório desejado

Forneça o nome, o caminho e uma breve descrição do seu projeto.

Paso 3- Crie um arquivo de fluxograma

Agora crie um arquivo de fluxograma para projetar seu fluxo de web scraping.

Paso 3- Projete o fluxo

uma) Escolha o navegador aberto no painel de atividades

b) Determinar a propriedade da exploração aberta

eu) Escolha o tipo de navegador como cromada

ii) Defina o URL: insira seu url entre aspas aqui Dados para arranhar

iii) Escolha uma nova sessão como Certo

4) Adicione uma atividade de atraso com uma extensão de 6 segundos no formato de 00:00:06, para a página carregar corretamente, há também outra alternativa, Mas para agora, estou usando a opção de atraso.

v) Escolha a opção de coleta de dados

uma) A opção de escolha do item está chegando

b) Selecione a próxima opção

c) O destaque do seletor de item aparecerá agora, portanto, selecione o item. Assim que os itens forem selecionados, você pode ver os dados de visualização. Se os dados chegarem conforme o esperado, selecione o botão Concluir; caso contrário, escolha os dados novamente.

d) Agora, uma caixa pop-up aparece solicitando a extração de várias páginas, então, se você quiser fazer scraping de várias páginas, selecione Sim e escolha o item que irá redirecioná-lo para a próxima página. No caso de hoje, Eu quero raspar apenas uma página, portanto, estou usando a opção Não.

mim) A atividade de extração de dados aparecerá no layout de fluxo. Selecione a atividade de extração de dados estruturados ‘TABLE dtDGrid’ e você notará duas coisas nas propriedades

eu) O número máximo padrão de resultados é 100, você pode alterá-lo com base nos registros da página.

ii) Na seção de saída, você pode ver que a variável da Tabela de Dados é Extrair Tabela de Dados.

F) Agora, temos que escrever os dados copiados no formato Excel. Então, usamos a atividade Write Range.

eu) O primeiro campo é para o caminho da planilha Excel, fornecê-lo com base na localização da planilha do excel.

ii) O segundo campo é para o nome da planilha e o nome da célula, forneça o nome da folha entre aspas e remova o nome da célula. Para você criar a planilha e escrever todos os dados.

iii) O último campo é para um nome de variável, no meu caso, o nome da variável é ExtractDataTable.

Paso 4-Fonte Execute o fluxo de automação

Clique na opção de execução ou pressione ctrl + f6 para executar o fluxo de automação.

Paso 5- Abra o arquivo do Excel e verifique os dados copiados

conclusão

Tentei explicar o web scraping usando a ferramenta RPA UiPath de uma maneira muito simples, Eu espero que isso ajude.

Encontre o código completo em GitHub

Se você tiver alguma dúvida sobre o código ou web scraping em geral, entre em contato comigo em

Conecte-se a Gyan no Linkedin

Nos encontraremos novamente com algo novo.

Até então,

Boa codificação ..!

A mídia mostrada nesta postagem não é propriedade da DataPeaker e é usada a critério do autor.

Assine a nossa newsletter

Nós não enviaremos SPAM para você. Nós odiamos isso tanto quanto você.