Hoje em dia é possível extrair informações importantes a partir dos dados que as pessoas compartilham na internet. De posse dessas informações as possibilidades são infinitas: podemos saber onde as pessoas costumam ir, sua personalidade ou qual propaganda é mais adequada para ela. A coleta de dados é um passo importante para a extração de informações e possui diversas técnicas. Nesta palestra serão exibidas algumas técnicas para coleta de dados com o Python em sites como Marvel, Twitter e Foursquare.
2. quem tá falando?!
Ana Paula Gomes
Baiana, mestranda em
Ciência da Computação,
apaixonada por tecnologia,
boas conversas e viagens
(não necessariamente nessa
ordem).
Organizadora do GDG e
WTM Belo Horizonte
18. Crawler
Busca em Largura
• busca todos os nós até
terminar a árvore de
dados
• exemplo: coleta todos
os links de uma página
e explora estes links
até todo o site ter sido
coletado
19. Crawler
Snowball
• inicia com um conjunto
de sementes (seeds) e
coleta até um
determinado critério
de parada
• critérios de parada:
tempo de execução,
componente conectado,
fim das sementes