Desbravando o mundo dos webcrawlers

556 visualizações

Publicada em

Nesta apresentação eu apresento uma visão geral sobre webcrawler's e apresento a implementação de um passo a passo.
Uma lista de projetos open-source são apresentados e podem ser reutilizados para diversos fins.

Publicada em: Tecnologia
0 comentários
2 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

Sem downloads
Visualizações
Visualizações totais
556
No SlideShare
0
A partir de incorporações
0
Número de incorporações
66
Ações
Compartilhamentos
0
Downloads
12
Comentários
0
Gostaram
2
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Desbravando o mundo dos webcrawlers

  1. 1. Desbravando o mundo dos webcrawlers Curso Full-stack mobile Developer :: Ionic Framework João Gabriel Lima @jgabriel_lima www.jgabriellima.com
  2. 2. Sobre o autor
  3. 3. http://github.com/jgabriellima IT Hacker - software e hardware, Arquiteto de soluções, Instrutor em treinamentos e Co-fundador da Huddle3 Mestre em Computação Aplicada com ênfase em Inteligência Artificial, Mineração de Dados e BigData.
  4. 4. O que é?
  5. 5. O que é um webcrawler? Web crawler, em português rastreador web, é um programa de computador que navega pela World Wide Web de uma forma metódica e automatizada. Outros termos para Web crawlers são indexadores automáticos, bots, web spiders, Web robot, ou Web scutter.
  6. 6. Exemplos
  7. 7. Exemplos ● DataparkSearch ● Wget ● HTTrack ● JSpider ● Methabot ● Pavuk ● WebSPHINX ● YaCy ● Crawljax ● Yahoo! Slurp é o nome do crawler do Yahoo!. ● Msnbot é o nome do crawler do Bing - Microsoft. ● Googlebot é o nome do crawler do Google. ● Methabot é um crawler com suporte a scripting escrito em C. ● arachnode.net é um Web crawler open-source usando a plataforma .NET e escrito em C# ● Goutte[3] é um Web Scraper para criar um crawler desenvolvido em PHP por Fabien Potencier usando o Symfony. ● DuckDuckBot é o web crawler do DuckDuckGo. ● Patent2net é um crawler especializado em encontrar, organizar e disponibilizar patentes depositadas na Espacenet. ● OpenWebSpider - http://www.openwebspider.org
  8. 8. Outras soluções
  9. 9. github.com/jgabriellima Diversos projetos, incluindo webcrawler’s para os mais diversos fins
  10. 10. https://github.com/jgabriellima/venom-telelista
  11. 11. https://github.com/jgabriellima/webcrowler-allitbooks
  12. 12. https://github.com/jgabriellima/node-web-scraper
  13. 13. https://github.com/jgabriellima/palcomp3webcrowler
  14. 14. https://github.com/jgabriellima/wsmarine
  15. 15. https://github.com/jgabriellima/paniconamaws
  16. 16. Por onde começar?
  17. 17. Entendendo a arquitetura de um webcrawler
  18. 18. Escolhendo a tecnologia...
  19. 19. http://zombie.js.org/
  20. 20. https://github.com/cheeriojs/cheerio
  21. 21. https://github.com/request/request
  22. 22. http://phantomjs.org/
  23. 23. { "name": "Webcrowler :: Curso 'Full-stack mobile developer' Ionic Framework", "private": true, "version": "0.0.1", "description": "webcrowler for get any", "keywords": [], "dependencies": { "zombie": "4.0.8", "cheerio": "*", "nedb": "*", "request": "*", "simple-ssh": "*", "ssh2": "*", "request":"*" }, "repository": { "type": "", "url": "" }, "author": "jgabriellima", "license": "MIT", "devDependencies": { "electron-packager": "^5.0.1" } } package.json Dependências para o projeto do webcrawler
  24. 24. Desbravando o mundo dos webcrawlers Curso Full-stack mobile Developer :: Ionic Framework João Gabriel Lima @jgabriel_lima www.jgabriellima.com

×