Métodos computacionais
avançados
PARA ENGENHARIA DE PRODUÇÃO
Prof. Davi das Chagas Neves
Prof. Helton Cristiano Gomes
AULA 09
Web Scraping com R
® Extraindo dados padronizados a partir de páginas
da internet: Web Scraping.
® Estudos de casos de Web Scraping utilizando
bibliotecas da linguagem R.
“Um artista ao olhar para uma rosa vê toda
a sua beleza estética, um cientista, além de
admirá-la, vê os dados que constituem toda
informação daquele universo.”
Richard Feynman, Físico Americano.
Web Scraping com R
Como funciona a internet?
Web Scraping com R Clientes
Servidor
Transferências
Solicitações
Comandos
Textos e Mídias
Conteúdo
HTML
Formato
CSS
Ação
JS
FRONT
END
Ação
PHP
BACK
END
▪ Python
▪ Pearl
▪ Ruby
▪ Linux
▪ Apache
▪ MySQL
Internet
HTTP
Web Scraping com R
Estruturas HTML Hyper Text Markup Language
Linguagem de marcação de hipertextos
Marcação
HTTP
Web Scraping com R
➢ O que é Web Scraping?
✓ Raspagem da WEB.
✓ Garimpando a internet.
✓ Coletando dados na rede.
Pergunta:
Como funciona um buscador de imagens?
Resposta:
Um algoritmo que coleta imagens utilizando
a etiqueta <img>.
Conclusão:
Assim como em uma pesquisa de preços, em
WEB Scraping foque nas etiquetas!
Traduções
Web Scraping com R
Estruturas HTML Etiquetas Relevantes:
TAG Estrutura HTML TAG Estrutura HTML
<script> Interatividade <tr>, <td>, <th> Tabelas
<ol>, <ul>, <li> Listas <form> Formulários
<dir>, <dt> Diretórios <title> Títulos
<menu> Menu para navegar <p> Parágrafos
<adress> Informações autorais <a> Links externos
<img> Imagens <style> Estilos CSS
<frame>, <iframe> Referências externas <input> Entrada de informação
Web Scraping com R
Estruturas CSS Folhas de Estilos em Cascata:
❑ Para importar a estrutura CSS utilize a TAG: <link>
Web Scraping com R
PARA ANALISAR O CÓDIGO
FONTE DE UMA PÁGINA, NO
CHROME, DIGITE:
Ctrl + U
Para outros
navegadores:
Web Scraping com R
Bibliotecas e Funções
Web Scraping com R
http://material.curso-r.com/scrape/
https://www.selenium.dev/
✓ As Bibliotecas
Web Scraping com R
✓ Mais Bibliotecas
❑ selectr – biblioteca leve e personalizável que converte estruturas JS em dados coletáveis.
❑ tydeverse – conjunto de pacotes em R especializados em ciências de dados.
❑ stringr – biblioteca especializada na manipulação de textos e caracteres.
❑ rebus – biblioteca para codificar textos prolixos (muito detalhados) em expressões regulares.
❑ dplyr – biblioteca elaborada para manipular textos considerando regras gramaticais.
❑ lubridate – biblioteca que contém funções especializadas em manipulação de datas.
❑ xts – conjunto de pacotes especializados no tratamento de séries de dados.
❑ infer – pacote especializado em inferência estatística a partir de expressões gramaticais.
❑ ggplot2 – pacote para plotar gráficos muito avançado.
Web Scraping com R
✓ Funções de rvest
1.read_html() – coleta o conteúdo HTML de um site.
2.html_nodes() – identifica wrappers (invólucro </>) HTML.
3.html_nodes(“.class”) – identifica uma classe de CSS.
4.html_nodes(“#id”) – identifica uma ID de CSS.
5.html_attrs() – identifica atributos, usado no debug.
6.html_table() – converte tabelas em data frames.
7.html_text() – retira as tags do HTML, extraindo apenas o texto.
Web Scraping com R
❖ Quer saber mais? Quer se aprofundar?
Web Scraping com R
Estudos de Casos
Web Scraping com R
Exemplo 1 ➢ Tabela do campeonato brasileiro 2019
1. Vá ao site:
2. Ctrl + U
3. Analise:
Web Scraping com R
➢ URL: https://www.cbf.com.br/futebol-brasileiro/competicoes/campeonato-brasileiro-serie-a/2019
Web Scraping com R
Web Scraping com R
Exemplo 2 ➢ Preços num site de compras
Selecione a estrutura e
clique com o botão direito.
Tablet
Galaxy
A8 SPen
2019
Web Scraping com R
Tablet A8 SPen
Ctrl + Shift + I
➢ Inspecione a estrutura HTML desejada, neste caso o título e o preço do produto.
Título
Web Scraping com R
Preço
Web Scraping com R
Ajuste a URL
Web Scraping com R
➢ Para casa: Repita este Web Scraping para uma página com muitos tablets.
No Magazine Luiza mesmo.
Web Scraping com R
Exemplo 3 ➢ Coletando dados no IMDB – Melhores Séries
Etapas
✓ Vá até o
site IMDB
✓ Clique no
Menu
✓ Selecione
Most Popular
TV Shows
✓ Sorteie por
IMDB Rating
Web Scraping com R
Instale
1
2
3
1) Ative o gadget, 2) Selecione o título e 3) Copie a estrutura HTML.
Web Scraping com R
✓ Resultado:
➢ Para casa: Troque “td” pelo termo copiado no slide passado.
Web Scraping com R
Exemplo 4 ➢ Cotações das Ações da Petrobrás
http://www.b3.com.br/
Web Scraping com R
A tabela não está no site primário, ela está em uma URL
secundária, conforme indicado neste código HTML
▪ http://www2.bmf.com.br/pages/portal/bmfbovespa/lumis/lum-ajustes-do-pregao-ptBR.asp
Web Scraping com R
Web Scraping com R
Web Scraping com
R
 Elabore um programa que coleta os
preços dos carros no site Webmotors.
 Elabore um programa que coleta os
dados do site da Amazon, para
smartphones.
 Descubra como extrair os dados dos
resultados dos nossos exemplos.
 Na próxima aula vamos conhecer
bancos de dados NoSQL.

P566Aula09

  • 1.
    Métodos computacionais avançados PARA ENGENHARIADE PRODUÇÃO Prof. Davi das Chagas Neves Prof. Helton Cristiano Gomes AULA 09
  • 2.
    Web Scraping comR ® Extraindo dados padronizados a partir de páginas da internet: Web Scraping. ® Estudos de casos de Web Scraping utilizando bibliotecas da linguagem R. “Um artista ao olhar para uma rosa vê toda a sua beleza estética, um cientista, além de admirá-la, vê os dados que constituem toda informação daquele universo.” Richard Feynman, Físico Americano.
  • 3.
    Web Scraping comR Como funciona a internet?
  • 4.
    Web Scraping comR Clientes Servidor Transferências Solicitações Comandos Textos e Mídias Conteúdo HTML Formato CSS Ação JS FRONT END Ação PHP BACK END ▪ Python ▪ Pearl ▪ Ruby ▪ Linux ▪ Apache ▪ MySQL Internet HTTP
  • 5.
    Web Scraping comR Estruturas HTML Hyper Text Markup Language Linguagem de marcação de hipertextos Marcação HTTP
  • 6.
    Web Scraping comR ➢ O que é Web Scraping? ✓ Raspagem da WEB. ✓ Garimpando a internet. ✓ Coletando dados na rede. Pergunta: Como funciona um buscador de imagens? Resposta: Um algoritmo que coleta imagens utilizando a etiqueta <img>. Conclusão: Assim como em uma pesquisa de preços, em WEB Scraping foque nas etiquetas! Traduções
  • 7.
    Web Scraping comR Estruturas HTML Etiquetas Relevantes: TAG Estrutura HTML TAG Estrutura HTML <script> Interatividade <tr>, <td>, <th> Tabelas <ol>, <ul>, <li> Listas <form> Formulários <dir>, <dt> Diretórios <title> Títulos <menu> Menu para navegar <p> Parágrafos <adress> Informações autorais <a> Links externos <img> Imagens <style> Estilos CSS <frame>, <iframe> Referências externas <input> Entrada de informação
  • 8.
    Web Scraping comR Estruturas CSS Folhas de Estilos em Cascata: ❑ Para importar a estrutura CSS utilize a TAG: <link>
  • 9.
    Web Scraping comR PARA ANALISAR O CÓDIGO FONTE DE UMA PÁGINA, NO CHROME, DIGITE: Ctrl + U Para outros navegadores:
  • 10.
    Web Scraping comR Bibliotecas e Funções
  • 11.
    Web Scraping comR http://material.curso-r.com/scrape/ https://www.selenium.dev/ ✓ As Bibliotecas
  • 12.
    Web Scraping comR ✓ Mais Bibliotecas ❑ selectr – biblioteca leve e personalizável que converte estruturas JS em dados coletáveis. ❑ tydeverse – conjunto de pacotes em R especializados em ciências de dados. ❑ stringr – biblioteca especializada na manipulação de textos e caracteres. ❑ rebus – biblioteca para codificar textos prolixos (muito detalhados) em expressões regulares. ❑ dplyr – biblioteca elaborada para manipular textos considerando regras gramaticais. ❑ lubridate – biblioteca que contém funções especializadas em manipulação de datas. ❑ xts – conjunto de pacotes especializados no tratamento de séries de dados. ❑ infer – pacote especializado em inferência estatística a partir de expressões gramaticais. ❑ ggplot2 – pacote para plotar gráficos muito avançado.
  • 13.
    Web Scraping comR ✓ Funções de rvest 1.read_html() – coleta o conteúdo HTML de um site. 2.html_nodes() – identifica wrappers (invólucro </>) HTML. 3.html_nodes(“.class”) – identifica uma classe de CSS. 4.html_nodes(“#id”) – identifica uma ID de CSS. 5.html_attrs() – identifica atributos, usado no debug. 6.html_table() – converte tabelas em data frames. 7.html_text() – retira as tags do HTML, extraindo apenas o texto.
  • 14.
    Web Scraping comR ❖ Quer saber mais? Quer se aprofundar?
  • 15.
    Web Scraping comR Estudos de Casos
  • 16.
    Web Scraping comR Exemplo 1 ➢ Tabela do campeonato brasileiro 2019 1. Vá ao site: 2. Ctrl + U 3. Analise:
  • 17.
    Web Scraping comR ➢ URL: https://www.cbf.com.br/futebol-brasileiro/competicoes/campeonato-brasileiro-serie-a/2019
  • 18.
  • 19.
    Web Scraping comR Exemplo 2 ➢ Preços num site de compras Selecione a estrutura e clique com o botão direito. Tablet Galaxy A8 SPen 2019
  • 20.
    Web Scraping comR Tablet A8 SPen Ctrl + Shift + I ➢ Inspecione a estrutura HTML desejada, neste caso o título e o preço do produto. Título
  • 21.
  • 22.
    Web Scraping comR Ajuste a URL
  • 23.
    Web Scraping comR ➢ Para casa: Repita este Web Scraping para uma página com muitos tablets. No Magazine Luiza mesmo.
  • 24.
    Web Scraping comR Exemplo 3 ➢ Coletando dados no IMDB – Melhores Séries Etapas ✓ Vá até o site IMDB ✓ Clique no Menu ✓ Selecione Most Popular TV Shows ✓ Sorteie por IMDB Rating
  • 25.
    Web Scraping comR Instale 1 2 3 1) Ative o gadget, 2) Selecione o título e 3) Copie a estrutura HTML.
  • 26.
    Web Scraping comR ✓ Resultado: ➢ Para casa: Troque “td” pelo termo copiado no slide passado.
  • 27.
    Web Scraping comR Exemplo 4 ➢ Cotações das Ações da Petrobrás http://www.b3.com.br/
  • 28.
    Web Scraping comR A tabela não está no site primário, ela está em uma URL secundária, conforme indicado neste código HTML ▪ http://www2.bmf.com.br/pages/portal/bmfbovespa/lumis/lum-ajustes-do-pregao-ptBR.asp
  • 29.
  • 30.
  • 31.
    Web Scraping com R Elabore um programa que coleta os preços dos carros no site Webmotors.  Elabore um programa que coleta os dados do site da Amazon, para smartphones.  Descubra como extrair os dados dos resultados dos nossos exemplos.  Na próxima aula vamos conhecer bancos de dados NoSQL.