Shut up and give me the data

879 visualizações

Publicada em

Hoje em dia é possível extrair informações importantes a partir dos dados que as pessoas compartilham na internet. De posse dessas informações as possibilidades são infinitas: podemos saber onde as pessoas costumam ir, sua personalidade ou qual propaganda é mais adequada para ela. A coleta de dados é um passo importante para a extração de informações e possui diversas técnicas. Nesta palestra serão exibidas algumas técnicas para coleta de dados com o Python em sites como Marvel, Twitter e Foursquare.

Publicada em: Dados e análise
2 comentários
10 gostaram
Estatísticas
Notas
Sem downloads
Visualizações
Visualizações totais
879
No SlideShare
0
A partir de incorporações
0
Número de incorporações
41
Ações
Compartilhamentos
0
Downloads
5
Comentários
2
Gostaram
10
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Shut up and give me the data

  1. 1. shut up and give me the data!
  2. 2. quem tá falando?! Ana Paula Gomes Baiana, mestranda em Ciência da Computação, apaixonada por tecnologia, boas conversas e viagens (não necessariamente nessa ordem). Organizadora do GDG e WTM Belo Horizonte
  3. 3. dados
  4. 4. APIs, Crawler, Apps
  5. 5. conte-me mais sobre isso
  6. 6. APIs facilitando a sua vida
  7. 7. APIs uma interface para acessar dados
  8. 8. APIs e o python nisso? • requests
  9. 9. APIs requests pip install requests >>> r = requests.get('https://api.github.com/user', auth=('user', 'pass')) >>> r.status_code 200 >>> r.headers['content-type'] 'application/json; charset=utf8' >>> r.text u'{"type":"User"...'
  10. 10. APIs Marvel API • oferece informações sobre seu universo: quadrinhos, personagens, autores • REST e JSON
  11. 11. APIs demonstração com requests acessando a API da marvel
  12. 12. APIs Twitter API passos: • cadastrar-se no Twitter (com número de telefone) • criar uma aplicação • solicitar token JSON
  13. 13. APIs Twitter API modalidades: • Streaming API • REST API (search)
  14. 14. APIs demonstração de uso da API do Twitter
  15. 15. Crawler tudo o que você pode ver, você pode pegar
  16. 16. Crawler programas que analisam páginas web em busca de dados relevantes
  17. 17. Crawler estratégias: • busca em Largura • snowball
  18. 18. Crawler Busca em Largura • busca todos os nós até terminar a árvore de dados • exemplo: coleta todos os links de uma página e explora estes links até todo o site ter sido coletado
  19. 19. Crawler Snowball • inicia com um conjunto de sementes (seeds) e coleta até um determinado critério de parada • critérios de parada: tempo de execução, componente conectado, fim das sementes
  20. 20. Crawler algumas bibliotecas: • pyquery, scrapy, beautiful soap
  21. 21. Crawler pyquery pip install pyquery >>>from pyquery import PyQuery as pq >>>doc = pq('<html><body><p>Hello World</p></body></html>') >>>print doc('p').text() 'Hello World'
  22. 22. Crawler demonstração do pyquery crawleando o foursquare
  23. 23. Apps você dá algo que os usuários querem em troca dos dados
  24. 24. Apps e dados criação de aplicativos em plataformas já consolidas em troca das informações dos usuários
  25. 25. Apps e dados
  26. 26. Por onde começar?
  27. 27. você pode escolher! programmableweb lod-clod.net APIs.io dados.gov.br … web inteira!
  28. 28. fácil assim?
  29. 29. só mais uma coisa!
  30. 30. códigos ou ideias { “email”: “apgomes88@gmail.com”, “twitter”: “anapaulagomess” “github”: “anapaulagomes/shutupandgivemethedata” }
  31. 31. obrigada!
  32. 32. crédito das imagens http://i.ytimg.com/vi/saZhldaHQM0/maxresdefault.jpg http://cdn2.screenjunkies.com/wp-content/uploads/2011/10/pulp-fiction- Screen-Junkies.jpg http://i.imgur.com/qvWn4Rd.png http://torino.zero.eu/files/2014/07/pulp-fiction.jpg https://blogstripme.files.wordpress.com/2015/03/stripme-blog-pulpfiction11.jpg http://images2.fanpop.com/image/photos/13100000/Pulp-Fiction-pulp- fiction-13195732-1920-810.jpg https://ultimaflordolacio.files.wordpress.com/2015/02/ pulpfiction_185pyxurz.jpg https://bluevelvetblog.files.wordpress.com/2014/06/pulp-cena.jpg https://catracalivre.com.br/wp-content/uploads/2014/07/pulp.jpg

×