Este artigo foi publicado como parte do Data Science Blogathon.
af
INTRODUÇÃO
Recopilar información a través de la web es web scraping, também conhecido como Extracción de datos web y recolección web. Hoje em dia, los datos son como el oxígeno para las empresas emergentes y autónomos que desean iniciar un negocio o un proyecto en cualquier ámbito. Suponga que desea encontrar el precio de un producto en un sitio web de comercio electrónico. Es fácil de encontrar, pero ahora digamos que tiene que hacer este ejercicio para miles de productos en varios sitios web de comercio electrónico. Haciéndolo manualmente; no es una buena opción en absoluto.
Conozca la herramienta
JavaScript es un lenguaje de programación popular y se ejecuta en cualquier navegador web.
NodoO Nodo é uma plataforma digital que facilita a conexão entre profissionais e empresas em busca de talentos. Através de um sistema intuitivo, permite que os usuários criem perfis, Compartilhar experiências e acessar oportunidades de trabalho. Seu foco em colaboração e networking torna o Nodo uma ferramenta valiosa para quem deseja expandir sua rede profissional e encontrar projetos que se alinhem com suas habilidades e objetivos.... JS es un intérprete y proporciona un entorno para JavaScript con algunas bibliotecas útiles específicas.
Em resumo, Node JS agrega varias funcionalidades y características a JavaScript en términos de bibliotecas y lo hace más poderoso.
Sessãoo "Sessão" É um conceito-chave no campo da psicologia e da terapia. Refere-se a uma reunião agendada entre um terapeuta e um cliente, onde os pensamentos são explorados, Emoções e comportamentos. Essas sessões podem variar em duração e frequência, e seu principal objetivo é facilitar o crescimento pessoal e a resolução de problemas. A eficácia das sessões depende da relação entre o terapeuta e o terapeuta.. práctica
Vamos a entender el web scraping usando Node JS con un ejemplo. Suponga que desea analizar las fluctuaciones de precios de algunos productos en un sitio web de comercio electrónico. Agora, debe enumerar todos los posibles factores de la causa y verificarlos con cada producto. de forma similar, cuando desee extraer datos, debe enumerar las etiquetas HTML principales y verificar la etiqueta HTML secundaria respectiva para extraer los datos repitiendo esta actividad.
Pasos necesarios para el web scraping
- Creando el archivo package.json
- Instale y llame a las bibliotecas necesarias
- Seleccione el sitio web y los datos necesarios para raspar
- Establezca la URL y verifique el código de respuesta
- Inspeccione y encuentre las etiquetas HTML adecuadas
- Incluya las etiquetas HTML en nuestro Código
- Verifique los datos extraídos
Estoy usando Visual Studio para ejecutar esta tarea.
Paso 1- Creando el archivo package.json
Para crear un package.json arquivo, necesito ejecutar npm init y proporcione algunos detalles según sea necesario en la siguiente captura de pantalla.
Paso 2- Instale y llame a las bibliotecas necesarias
Necesita ejecutar los siguientes códigos para instalar estas bibliotecas.
Una vez que las bibliotecas adecuadamente instalado, verá que estos mensajes se muestran.
Llame a las bibliotecas requeridas:
Paso 3- Seleccione el sitio web y los datos necesarios para raspar.
Elegí este sitio web “https://www.bullion-rates.com/gold/INR/2007-1-history.htm”Y desea extraer datos de las tasas de oro junto con las fechas.
Paso 4- Establezca la URL y verifique el código de respuesta
El código JS del nodo se ve así para pasar la URL y verificar el código de respuesta.
Paso 5- Inspeccione y encuentre las etiquetas HTML adecuadas
Es bastante fácil encontrar las etiquetas HTML adecuadas en las que están presentes sus datos.
Para ver las etiquetas HTML; haga clic derecho y seleccione la opción inspeccionar.
Seleccione las etiquetas HTML adecuadas: –
Si te diste cuenta estão Tres columnas en nuestra tabla, por lo que nuestra etiqueta HTML para la fila de la tabla sería “HeaderRow” & todos los nombres de las columnas están presentes con la etiqueta “Th” (encabezado de la tabla).
Y para cada uno fila de la tabla (“tr”) nuestros datos residen en “DataRow ” Etiqueta HTML
Agora, necesito que todas las etiquetas HTML residan en “HeaderRow“Y necesito encontrar todos los”º“Etiquetas HTML y finalmente iterar”DataRow”Etiqueta HTML para obtener todos los datos que contiene.
Paso 6- Incluya las etiquetas HTML en nuestro Código
Después de incluir las etiquetas HTML, nuestro código será: –
Paso 7- Verifique los datos raspados
Imprima los datos, por lo que el código para esto es como: –
Si pasa a un nivel más granular de etiquetas HTML y las itera en consecuencia, obtendrá datos más precisos.
Eso es todo sobre raspado web y cómo obtener datos de calidad poco común como el oro.
conclusão
Traté de explicar Web Scraping usando Node JS de una manera precisa. Espero que esto te ayude.
Encontre o código completo em
Si tiene alguna pregunta sobre el código o el web scraping en general, entre em contato comigo em
Vgyaan’s – Linkedin
Nos volveremos a encontrar con algo nuevo.
Até então,
Boa codificação ..!