Criando um Web Scraper com NodeJs

O Web Scraping é uma espécie de garimpo da internet. Esse “garimpo” envolve a extração de informações de determinado site. A ideia do Web Scraping é automatizar o trabalho usando bots, que coletam um maior número de dados em uma curta fração de tempo.

O processo de Web Scraping pode ser dividido em duas etapas principais:

  • Buscando o código-fonte HTML do site por meio de uma solicitação HTTP ou usando um navegador Headless;

  • Analisando os dados brutos para extrair apenas as informações de seu interesse.

Para realização deste tutorial, será necessário o Node.js na versão 8.x ou posterior e npm instalados no seu computador.

Vamos começar!

Crie uma pasta chamado scraper e inicie com o code. Abra o terminal do code e execute o comando:

npm init -y

Esse comando inicializará o projeto com um arquivo “package.json”. Deixe-o com seus padrões.

Agora, instalaremos as dependências que utilizaremos para criar o Web Scraper:

npm install axios cheerio puppeteer –save

O que cada dependência faz?

  • Axios: é um cliente HTTP baseado em Promises para Node.js;

  • Cheerio: implementação do jQuery para o Node.js. O Cheerio facilita a seleção, edição e exibição de elementos DOM;

  • Puppeteer: uma biblioteca Node.js para controlar o Chrome ou Chromium.

Web Scrap:

Para demonstrar como fazer Web Scrap em um site utilizando o Node.js, configuraremos um script para capturar algumas informações da tabela do Campeonato Carioca de 2020 (Taça Rio). Especificamente, capturaremos os principais goleadores da competição até o momento e organizaremos os dados como um JSON.

Crie um novo arquivo na sua pasta scrapper, chamado goleadorScrap.js.

1º Passo:

Faça as requisições do axios, cheerio e coloque a url em uma constante (Vamos utilizar o site do globoesporte para fazer esse Web Scrap):

const axios = require('axios');
const cheerio = require('cheerio');
const url = 'https://globoesporte.globo.com/rj/futebol/campeonato-carioca/';

Agora, precisamos utilizar o axios para realizar a leitura do nosso HTML. O axios nos traz uma longa sequência de HTML, mas como analisar esse HTML e extrair apenas os dados que queremos? Esse é o trabalho do Cheerio. Ele nos permite utilizar os métodos jQUery para analisar o HTML e extrair informações que desejamos com ele.

Abra o link e abra as ferramentas de desenvolvedor, pressionando a tecla f12 ou clicando com o botão direito do mouse e Inspecionando. Vamos trazer os dados dos artilheiros do Campeonato Carioca. Como você pode notar, o corpo da tabela possui uma div com classe chamada “ranking-item-wrapper”, que contém as informações de cada jogador. Precisamos de um vetor para armazenar essas informações. O código ficaria assim:

const axios = require('axios');
const cheerio = require('cheerio');
const url = 'https://globoesporte.globo.com/rj/futebol/campeonato-carioca/';

axios(url).then(response => {
    const html = response.data;
    const $ = cheerio.load(html);
    const tabelaStatus = $('.ranking-item-wrapper');
    const tabelaJogador = [];
}).catch(console.error);

Os dados que queremos capturar dessa tabela são:

  • Nome do jogador: criaremos uma constante chamada nomeJogador, que receberá o texto disponível na div com classe “jogador-nome”.

  • Posição do Jogador: qual a posição do jogador. Pegue a classe “jogador-posicao” e capture o seu conteúdo de texto;

  • Número de gols: a quantidade de gols que o jogador fez. Capture o conteúdo da classe “jogador-gols”;

  • Time do jogador: o time para qual o jogador pertence. Nesse atributo, precisamos capturar o texto “alt” da tag “img”, que está aninhada a uma div com classe “jogador-escudo”.

O código ficará assim:

const nomeJogador = $(this).find('.jogador-nome').text();
const posicaoJogador = $(this).find('.jogador-posicao').text();
const numeroGols = $(this).find('.jogador-gols').text();
const timeJogador = $(this).find('.jogador-escudo > img').attr('alt');

Agora, precisamos dar um push no nosso vetor. Para isso, usaremos um .each para criar um laço de repetição, colocando em cada posição do vetor, um objeto com os dados do jogador. Feito isso, mostraremos no console os dados de cada jogador!

Este é o código completo:

const axios = require('axios');
const cheerio = require('cheerio');
const url = 'https://globoesporte.globo.com/rj/futebol/campeonato-carioca/';

axios(url).then(response => {
    const html = response.data;
    const $ = cheerio.load(html);
    const tabelaStatus = $('.ranking-item-wrapper');
    const tabelaJogador = [];

    tabelaStatus.each(function(){
        const nomeJogador = $(this).find('.jogador-nome').text();
        const posicaoJogador = $(this).find('.jogador-posicao').text();
        const numeroGols = $(this).find('.jogador-gols').text();
        const timeJogador = $(this).find('.jogador-escudo > img').attr('alt');
        tabelaJogador.push({
            nomeJogador,
            posicaoJogador,
            numeroGols,
            timeJogador
        });
    });
    console.log(tabelaJogador);
}).catch(console.error);

Faça o teste! Veja o resultado no seu terminal!

Gostou deste exemplo? Comente abaixo!

Exemplo Prático: Node.js

Neste tutorial, irei demonstrar como criar a sua primeira aplicação Olá Mundo em node.js. Para instalar o node.js na sua máquina, confira o link a seguir: https://nodejs.org/en/

Vamos começar!

Você pode realizar este tutorial utilizando Windows, Linux ou Mac. Você precisará:

  • Criar uma pasta chamada projects dentro do seu diretório de usuário. Você pode fazer isso utilizando os seguintes comandos no Windows:
> mkdir %USERPROFILE%\projects
> cd %USERPROFILE%\projects
  • No Linux e Mac:
$ mkdir ~/projects
$ cd ~/projects

Agora, acesse a pasta e crie um arquivo chamado ola-mundo.js dentro da sua pasta projects. O próximo passo é inserir este código dentro do seu arquivo olamundo.js. Use o seu editor de texto favorito para tal ação.

const http = require('http');

const hostname = '127.0.0.1';
const port = 3000;

const server = http.createServer((req, res) => {
  res.statusCode = 200;
  res.setHeader('Content-Type', 'text/plain');
  res.end('Ola Mundo!\nBem vindo ao nodejs');
});

server.listen(port, hostname, () => {
  console.log(`Server running at http://${hostname}:${port}/`);
});

O que fazer agora?

Você já tem tudo preparado para sua primeira aplicação simples em node. O próximo passo é:

  • Com o seu terminal aberto, e na pasta projects, escreva o seguinte comando para executar o seu servidor node:
$ node ola-mundo.js

Observação:

Não utilize o “&” e “<” nos seus comandos, eles são apenas um indicativo de início de comando. Eles estão lá apenas para replicar como apareceria no seu terminal.

Feito isto, a sua saída no terminal deve ser algo parecido com isso:

Server running at http://127.0.0.1:3000/

Isso significa que o seu servidor está rodando no endereço 127.0.0.1:3000.

Para acessá-lo, abra o seu navegador e, na url, digite este endereço: http://127.0.0.1:3000/

O seu navegador deve estar mostrando em tela algo como isso:

Se o seu navegador mostrar a frase “Ola Mundo! Bem vindo ao node.js”, significa que o seu servidor está funcionando.

Parabéns, a sua primeira aplicação Node.js já está funcionando!

Para adquirir mais conhecimentos, recomendo que leia a documentação, disponível em: Documentação Node.js

Gostou deste artigo? Comente abaixo!