O documento discute web scraping, resumindo o que é e como funciona, incluindo exemplos de aplicações em negócios e ciência. Também aborda questões legais relacionadas ao web scraping.
Web Scraping: aplicações nos negócios e na ciência
1. Web Scraping:
Aplicações na ciência e nos
negócios
Prof.º M.Sc. Sidney Roberto de Sousa
sidney.sousa@ifms.edu.br
2. Quem está aí?
● Devs
● DBAs
● Téc. de infra
● Estudantes
● Entusiastas do
ramo
● Curiosos
3. Short bio
● Professor de desenvolvimento Web
e coordenador de EaD no IFMS
campus Aquidauana
● Bacharel em Ciência da
Computação (UEMS)
● Mestre em Ciência da Computação
(UNICAMP)
● Especialista em docência (IFMS)
● Desenvolvedor há 10 anos (UEMS,
Pinuts, DigithoBrasil, CASSEMS e
IFMS)
4. Roteiro
● A Web como fonte de dados e informações
● Falando a linguagem das páginas Web
● O que é um Web Scraper?
● Aplicações nos negócios
● Aplicações na ciência
● Questões legais e conclusões
24. Extraindo trechos de páginas Web
● Páginas Web são baseadas em HTML
● HTML → conjuntos de tags aninhadas
● Estrutura parecida com uma árvore
● XPath → linguagem de consulta a documentos
estruturados com linguagens baseadas em XML
● Permite a navegação estratégica na árvore
30. Segundo a Wikipedia...
“Web scraping (web harvesting or web data
extraction) is a computer software technique of
extracting information from websites. Usually,
such software programs simulate human
exploration of the World Wide Web by either
implementing lowlevel
Hypertext Transfer
Protocol (HTTP), or embedding a fullyfledged
web browser, such as Internet Explorer or
Mozilla Firefox.”
31. Web Scraping via browser
● Uso de plugins/addons para consultar páginas
com Xpath → Ex: XPath Helper, para o Chrome
● Uso de plugins/addons para planejar/criar
esquemas de extração de conteúdo em páginas
→ Web Scraper, para o Chrome
32. Web Scraping via programação
● Uso de APIs para realizar conexões HTTP e
aplicar consultas XPath em páginas →Ex:
HTTPClient, HTMLCleaner, urllib3, lxml
● Uso de APIs para realizar Web Scraping em alto
nível →Ex: Scrapy
49. Questões legais
● Não existe uma legislação específica para o uso de Web
Scraping
● Porém, há precedentes de penalização ao uso:
– Curriculum Tecnologia Ltda. x Catho Online S/C Ltda.
(2002)
– American Airlines x FareChase (2003)
– eBay x Bidder's Edge (2000)
● Cuidados a serem tomados:
– Sazonalidade de extração
– Publicação dos dados extraídos
50. Conclusões
● Web Scraping é ideal para agregação de dados e
geração de informação
● Mais importante que o Web Scraping é o uso dos
dados extraídos
– Visão computacional
– Mineração de dados
– BI