O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

Capturando dados com Python - UAI Python

4.589 visualizações

Publicada em

Dada a imensa quantidade de informação disponível na Web de forma distribuída e não padronizada, é comum a necessidade de capturar, converter e normalizar esses dados antes de começar o trabalho
desejado em cima deles. Esse processo tira o foco inicial do projeto e pode ser bastante trabalhoso.

Nessa palestra apresentarei ferramentas escritas em Python que envolvem todo o processo descrito acima, visando facilitar e otimizar esse tipo de tarefa.

Slides da palestra ministrada no UAI Python em 29 de agosto de 2015.

Versão interativa dos slides: http://turicas.info/slides/brasil.io/uaipython/

Publicada em: Tecnologia
  • Seja o primeiro a comentar

Capturando dados com Python - UAI Python

  1. 1. Capturando Dados Com Python Turicas aka Álvaro Justen UAI Python! 29 de agosto de 2015, Belo Horizonte/MG
  2. 2. Turicas, prazer! =) { , , , }/turicas twitter.com github.com youtube.com slideshare.net alvarojusten@gmail.com turicas.info
  3. 3. E Vocês?Python? Crawling/parsing de dados? Análise/visualização de dados?
  4. 4. Valeu, PUG-MG! o/
  5. 5. bit.ly/uaipython- turicas
  6. 6. RoteiroJornalismo de dados Capturade dados LIVE CODING Normalização de dados LIVE CODING Dados abertos, Brasil.IO etc.
  7. 7. Funil de Dados1. Captura: encontrar e baixar 2. Normalização: colocar em um formato amigável 3. Análise: ver o que tem de bom 4. Visualização: mostrar paraos leigos
  8. 8. Funil de Dados [2]4. Visualização: cerejado bolo 3. Análise: onde ocorrem os insights 2. Normalização: pé no saco 1. Captura: pé no saco [2]
  9. 9. Captura + Normalização
  10. 10. WARNING: DANGER ZONE
  11. 11. Captura: APIspip install requests pip install tapioca-facebook
  12. 12. Captura: Nem Tudo São Florespip install splinter pip install scrapy
  13. 13. Normalizaçãopip uninstall beaufitulsoup4 pip uninstall lxml pip install rows
  14. 14. rows 0.1.0 hoje(especialmente pravcs <3) Contribuições são bem-vindas! gihub.com/turicas/rows
  15. 15. Dados AbertosDados Públicos Transparência Empoderamento dados.gov.br
  16. 16. 5 Stars Data 5stardata.info
  17. 17. Linked Data linkeddata.org
  18. 18. Brasil.IO Contribuições são bem-vindas! github.com/turicas/api.brasil.io groups.google.com/group/brasil-io twitter.com/brasil_io facebook.com/api.brasil.io #Brasil.IO@ irc.FreeNode.net
  19. 19. ?
  20. 20. Obrigado! (: Turicas aka Álvaro Justen { , , , }/turicas twitter.com github.com youtube.com slideshare.net alvarojusten@gmail.com turicas.info bit.ly/uaipython-turicas

×