Scraping

573 visualizações

Publicada em

Ferramentas para raspagem de páginas e PDFs

Publicada em: Software
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
573
No SlideShare
0
A partir de incorporações
0
Número de incorporações
2
Ações
Compartilhamentos
0
Downloads
17
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Scraping

  1. 1. Scraping Vítor Baptista vitor@vitorbaptista.com
  2. 2. Qual o problema?
  3. 3. Websites ● Requer envio de algum formulário? ● Requer login? ● Funciona sem JavaScript?
  4. 4. Website básico
  5. 5. Website com formulário
  6. 6. Website com login
  7. 7. Acessando elementos específicos ● CSS Selectors (HTML) – .classe-css – #id-elemento – div#body ● XPath (XML) – //table/td/tr
  8. 8. Ferramentas ● ScraperWiki ● ScrapingHub ● Mechanize (Python, Ruby, ...) ● Scrapy (Python) ● Ghost (Python, para sites que requerem JavaScript)
  9. 9. PDFs ● Se você consegue selecionar texto do PDF, ou seja, o PDF foi gerado por um programa qualquer, e não é simplesmente um documento escaneado, você está com sorte. ● Se não, as técnicas são as mesmas pra quebrar CAPTCHA (vou falar a seguir)
  10. 10. Ferramentas ● Pdftables ● Tabula ● ScraperWiki ● pdftohtml
  11. 11. CAPTCHAS ● Existem para evitar que pessoas automatizem o acesso a websites, seja para raspagem ou para criar contas ● Para quebrar um CAPTCHA, primeiro baixamos um grande número de imagens, as resolvemos manualmente e usamos esse conjunto para treinar a ferramenta escolhida
  12. 12. Limpeza de ruído ● ImageMagick
  13. 13. Ferramentas ● GOCR ● Tesseract ● DeathByCaptcha
  14. 14. GOCR ● Simples de usar ● Funciona em CAPTCHAs mais simples
  15. 15. Tesseract ● É a ferramenta livre mais poderosa ● Desenvolvida desde 1985 inicialmente pela HP, depois pelo Google ● Difícil de usar
  16. 16. E se eu não conseguir quebrar o CAPTCHA?
  17. 17. Death By Captcha ● Uma das empresas que vende serviço de “quebra” de CAPTCHAs ● Você envia a imagem do CAPTCHA e eles te devolvem a solução ● São pessoas em algum lugar cujo trabalho é quebrar CAPTCHAS ● US$ 1,39 por 1.000 CAPTCHAs (e você não paga pelos errados)
  18. 18. Etiqueta de crawling ● Limite sua velocidade (normalmente uso 1 requisição por segundo) ● Adicione uma forma de contato ao seu User- Agent

×