Fala um pouco de algumas bibliotecas em Python para o desenvolvimento de um web crawler ou scraper.
------
Cover some Python libraries for development of web crawler or scraper.
3. 3
Web Crawler
● Spider, robôs
● Começa com uma lista de URL's
para visitar. A cada URL visitada, ele
identifica os hyperlinks e os guarda
para visitá-los no futuro, e também
copia o conteúdo da página.
● GoogleBot, Yahoo
Slurp,DuckDuckBot...
4. 4
Web Scraper
● Extrai informações de um web site.
● Relacionado com web indexing.
● Transformação de dados.
5. 5
Trabalho de um crawler/scraper
● Abrir um link
● Cópia e/ou manipulação do dado
12. 12
Scrapy
● Open Source framework, poderoso
para crawling e scraping. Python 2.
● Suporta o uso de xpath e css
selectors.
● Formatos de saída: json, csv, xml,
json lines
● Há exemplos com persistência em
banco.