Caracterização do padrão de acesso a websites de notícia por usuários do StumbleUpon
1. Caracterização do padrão de acesso a
websites de notícia por usuários em uma
redes social de bookmarks: StumbleUpon
Christiano T., Emanuel V. e Rafael O.
{teixeira,vianna,odon}@dcc.ufmg.br
Mineração de Dados - DCC/UFMG - Wagner Meira Jr.
3. 1. Seleção: Definição do Problema
• StumbleUpon permite que usuários listem sites favoritos
e acompanhem os favoritos de amigos.
• O objeto de pesquisa foram websites de notícias
• Propõe-se a avaliar a co-ocorrência de sites de notícia
marcados como favorito por usuários de um mesmo país.
o Um usuário do país X que se interessa pelo site de
notícia A também se interessa pelo site B?
4. 1. Seleção: Extração dos dados
1. Coleta dos profiles dos usuários (~1 semana; ~ 45K)
Estratégia Snow Ball: inicia dos top-usuários e expande a árvore
pelos subscriptions até completar o componente gigante
Dados: login, cidade, estado, país, genêro e data de nascimento, nº de
favoritos, nº de reviews, nº de subscriptions/subscribers
1 máquina rodando 25 threads (dependência entre os níveis da árvore)
2. Coleta dos bookmarks por usuário (~4 semanas; ~20M)
Dados: login, url, data de marcação, lista de tags, nº de reviews
6 máquinas, cada uma rodando 2 processos com 20 threads
5. 1. Seleção: Classificação de notícias
• Como filtrar os bookmarks que são de notícia?
• O projeto DMOZ é um diretório aberto de sites que organiza
tudo em categorias, sendo uma delas de notícias
• Carregamos a estrutura do DMOZ em um SGBD e
cruzamos com os dados dos favoritos dos usuários
o Selecionamos apenas os favoritos com URI de sites de notícias.
• Foi elaborado um histograma para visualizar a quantidade
de notícias de cada site
o Estabelecemos um threshold: trabalharíamos apenas com os TOP-10
sites de notícias
7. 2. Pré-Processamento
• Stumble Upon permite qualquer texto para Cidade, Estado e
País do usuário
o Ocorrem valores vazios, ambíguos, inválidos.
• Google Maps API permite geocodificar nomes de locais:
o Subtemos o texto sem tratameto para o web-service
o Obtivemos a coordenada do usuário no mundo
• O país de cada usuário foi encontrado com operações
espaciais no PostGIS:
o o país oficial do usuário é aquele que contém sua coordenada geográfica. Ex:
País = vazio, Estado = "Minas", Cidade = "BH"
Coordenada: -19.8157306, -43.9542226
Usuário dentro do Brasil.
9. 3. Transformações
• Devido ao tamanho da base de bookmarks foi necessário
dividí-la em múltiplas tabelas menores para evitar um lack
de swap no banco de dados.
• Em seguida, para cada país, colocou-se os dados no
seguinte formato:
CNN BBC NY Times
User 1 5 0 7
User 2 0 12 3
10. 4. Mining
Utilizou-se o fp-growth para minerar frequent itemset referentes a co-
ocorrência de notícia por país;
A implementaçào de Balázs Rácz, Ferenc Bodon, Lars Schmidt-
Thieme foi desenvolvda em C++ e está disponível em:
http://www.cs.bme.hu/~bodon/en/fim_env/
Após a execução do método, obteve-se para cada país, os padrões de
ocorrência dos sites de notícia e a quantidade de ocorrências
Foram variado os valores do suportes para obter os itemsets mais
significativos. Consideramos:
Número mínimo de usuários: 10, 50 e 100
Suporte mínimo para padrão: 30% , 40% e 50%
13. Conclusão e considerações
• Observamos que poucos provedores de notícia são
responsáveis por mais de 90% das notícias
marcadas como favoritos.
• Não houve nenhum padrão que ocorresse em
apenas um país.
• Após coleta e tratamento desta base de dados é
possível realizar outras análises com baixo custo.