UiPath-Web-Scraping | Web Scraping mit dem RPA UiPath-Tool

Inhalt

Dieser Beitrag wurde im Rahmen der Data Science Blogathon.

Die Welt bewegt sich schnell in Richtung KI, Also geh besser mit dem Strom. Diese Linie repräsentiert die Anpassung der Technologie in die reale Welt, um bessere und schnellere Ergebnisse zu erzielen.

EINLEITUNG

Web-Scraping, Webdatenextraktion und Websammlung ist das Sammeln von Daten aus dem Web. In diesen Tagen, alles und jeder braucht daten um zu funktionieren. Daten sind das wertvollste Juwel bei der Führung eines Unternehmens und der schwierigste Teil ist das Sammeln oder Sammeln von Qualitätsdaten. Die Daten zu finden ist gut; noch besser extrahieren; es mit Automatisierung zu machen ist perfekt.

Was ist UiPath??

UiPath ist ein RPA-Tool. Aber warte, Was ist RPA?

Was ist RPA?

Zitat von der UIPath-Site:

Robotic Process Automation ist die Technologie, die es heute jedem ermöglicht, Computersoftware zu konfigurieren. Oder anders ausgedrückt, es ist ein “Roboter” die Aktionen eines Menschen zu emulieren und zu integrieren, der mit digitalen Systemen interagiert, um einen Geschäftsvorgang auszuführen. RPA-Roboter verwenden die Benutzeroberfläche, um Daten zu erfassen und Anwendungen wie Menschen zu manipulieren. Interpretieren, Reaktionen auslösen und mit anderen Systemen kommunizieren, um eine Vielzahl sich wiederholender Aufgaben auszuführen.

Nur wesentlich besser: ein RPA-Softwareroboter schläft nie und macht keine Fehler.

Erlebnissitzung

In Versionen hergestellt

UiPath – 20.4.3

Machen wir Web-Scraping mit UiPath. Überprüfen Sie einfach das Webportal, um die Daten zu sehen, die Sie extrahieren möchten, und überprüfen Sie die Liste der wichtigsten und kleineren HTML-Tags zum besseren Verständnis.

Schritte zum Erstellen von Web Scrape

  • Wählen Sie das Webportal und die Daten
  • Ein ... kreieren Projizieren Sie in Ihr gewünschtes Verzeichnis
  • Erstellen Sie eine Flussdiagrammdatei für das Web-Scraping-Flow-Layout
  • Gestalten Sie den Fluss
  • Führen Sie den Automatisierungsablauf aus
  • Öffnen Sie die Excel-Datei und überprüfen Sie die geschabten Daten

Paso 1- Wählen Sie das Webportal und die Daten

Ich habe dieses Webportal ausgewählt “https://www.bullion-rates.com/gold/INR/2007-1-history.htm” und ich möchte Daten aus Goldkursen zusammen mit Daten extrahieren.

Paso 2- Ein ... kreieren ProfiThema in Ihrem Wunschverzeichnis

Geben Sie den Namen an, den Pfad und eine kurze Beschreibung Ihres Projekts.

Paso 3- Erstellen Sie eine Flussdiagrammdatei

Erstellen Sie jetzt eine Flussdiagrammdatei, um Ihren Web-Scraping-Flow zu entwerfen.

Paso 3- Gestalten Sie den Fluss

ein) Wählen Sie den im Aktivitätenfenster geöffneten Browser

B) Bestimmen Sie die Eigentumsrechte an der offenen Exploration

ich) Wählen Sie einen Browsertyp wie Chrom

ii) Legen Sie die URL fest: füge hier deine URL in Anführungszeichen ein Daten zum Rubbeln

iii) Wählen Sie Neue Sitzung als Sicher

NS) Fügen Sie eine Verzögerungsaktivität mit einer Erweiterung von hinzu 6 Sekunden im Format 00:00:06, damit die Seite richtig geladen wird, es gibt auch eine andere alternative, Aber für den Moment, Ich verwende die Verzögerungsoption.

v) Wählen Sie die Option Datenerfassung

ein) Artikel auswählen Option kommt

B) Wählen Sie die Option Weiter

C) Die Hervorhebung der Gegenstandsauswahl wird nun angezeigt, deshalb wähle den Artikel aus. Sobald die Elemente ausgewählt wurden, Sie können die Vorschaudaten sehen. Wenn die Daten wie erwartet ankommen, Wählen Sie die Schaltfläche Fertig stellen; umgekehrter Fall, wähle die Daten erneut aus.

D) Jetzt erscheint ein Pop-up-Fenster, das zum Scraping mehrerer Seiten auffordert, Wenn Sie also mehrseitiges Scraping durchführen möchten, Wählen Sie Ja und wählen Sie das Element, das Sie zur nächsten Seite weiterleitet. Im heutigen Fall, Ich möchte nur eine Seite kratzen, daher verwende ich die Option Nein.

mich) Die Datenextraktionsaktivität wird im Flow-Layout angezeigt. Wählen Sie die Aktivität Strukturierte Daten extrahieren „TABLE dtDGrid“ aus’ und Sie werden zwei Dinge in den Eigenschaften bemerken

ich) Die standardmäßige maximale Anzahl von Ergebnissen ist 100, Sie können es basierend auf den Seitenprotokollen ändern.

ii) Im Ausgabebereich, Sie können sehen, dass die Variable Datentabelle Datentabelle extrahieren ist.

F) Jetzt, wir müssen die geschabten Daten im Excel-Format schreiben. Also verwenden wir die Write Range-Aktivität.

ich) Das erste Feld ist für den Excel-Blattpfad, Geben Sie es basierend auf dem Speicherort der Excel-Tabelle an.

ii) Das zweite Feld ist für den Blattnamen und den Zellennamen, Geben Sie den Blattnamen in Anführungszeichen ein und entfernen Sie den Zellennamen. Damit Sie das Blatt erstellen und alle Daten schreiben.

iii) Das letzte Feld ist für einen Variablennamen, in meinem Fall ist der Variablenname ExtractDataTable.

Paso 4-Quelle Führen Sie den Automatisierungsablauf aus

Klicken Sie auf die Ausführungsoption oder drücken Sie Strg + f6, um den Automatisierungsablauf auszuführen.

Paso 5- Öffnen Sie die Excel-Datei und überprüfen Sie die geschabten Daten

Fazit

Ich habe versucht, Web-Scraping mit dem RPA UiPath-Tool auf sehr einfache Weise zu erklären, ich hoffe das hilft.

Den vollständigen Code finden Sie unter GitHub

Wenn Sie Fragen zum Code oder zum Web-Scraping im Allgemeinen haben, kontaktiere mich unter

Verbinden Sie sich mit Gyan auf Linkedin

Wir werden uns mit etwas Neuem wiedersehen.

Bis dann,

Viel Spaß beim Codieren ..!

Die in diesem Beitrag gezeigten Medien sind nicht Eigentum von DataPeaker und werden nach Ermessen des Autors verwendet.

Abonniere unseren Newsletter

Wir senden Ihnen keine SPAM-Mail. Wir hassen es genauso wie du.