9. PDFs
● Se você consegue selecionar texto do PDF,
ou seja, o PDF foi gerado por um programa
qualquer, e não é simplesmente um
documento escaneado, você está com sorte.
● Se não, as técnicas são as mesmas pra
quebrar CAPTCHA (vou falar a seguir)
11. CAPTCHAS
● Existem para evitar que pessoas
automatizem o acesso a websites, seja para
raspagem ou para criar contas
● Para quebrar um CAPTCHA, primeiro baixamos
um grande número de imagens, as resolvemos
manualmente e usamos esse conjunto para
treinar a ferramenta escolhida
17. Death By Captcha
● Uma das empresas que vende serviço de
“quebra” de CAPTCHAs
● Você envia a imagem do CAPTCHA e eles te
devolvem a solução
● São pessoas em algum lugar cujo trabalho é
quebrar CAPTCHAS
● US$ 1,39 por 1.000 CAPTCHAs (e você não
paga pelos errados)
18. Etiqueta de crawling
● Limite sua velocidade (normalmente uso 1
requisição por segundo)
● Adicione uma forma de contato ao seu User-
Agent