Caracterização do padrão de acesso a websites de notícia por usuários do StumbleUpon

Caracterização do padrão de acesso a
websites de notícia por usuários em uma
redes social de bookmarks: StumbleUpon

Christiano T., Emanuel V. e Rafael O.
{teixeira,vianna,odon}@dcc.ufmg.br

Mineração de Dados - DCC/UFMG - Wagner Meira Jr.

Sumário

    1. Seleção
              Entendimento sobre o domínio do problema

    2. Pré-Processamento
              Limpeza dos dados e pré-processamentos

    3. Transformação
              Redução e projeção dos dados

    4. Mining
              Escolha de aplicação da técnica de mineração

    5. Avaliação
              Interpretação e consolidação do conhecimento

1. Seleção: Definição do Problema

• StumbleUpon permite que usuários listem sites favoritos
e acompanhem os favoritos de amigos.

• O objeto de pesquisa foram websites de notícias

• Propõe-se a avaliar a co-ocorrência de sites de notícia
marcados como favorito por usuários de um mesmo país.
o Um usuário do país X que se interessa pelo site de
notícia A também se interessa pelo site B?

1. Seleção: Extração dos dados


      1. Coleta dos profiles dos usuários (~1 semana; ~ 45K)
 Estratégia Snow Ball: inicia dos top-usuários e expande a árvore
pelos  subscriptions até completar o componente gigante
 Dados: login, cidade, estado, país, genêro e data de nascimento, nº de
favoritos, nº de reviews, nº de subscriptions/subscribers
 1 máquina rodando 25 threads (dependência entre os níveis da árvore)

       2. Coleta dos bookmarks por usuário (~4 semanas; ~20M)
 Dados: login, url, data de marcação, lista de tags, nº de reviews

 6 máquinas, cada uma rodando 2 processos com 20 threads

1. Seleção: Classificação de notícias

• Como filtrar os bookmarks que são de notícia?

• O projeto DMOZ é um diretório aberto de sites que organiza
tudo em categorias, sendo uma delas de notícias

• Carregamos a estrutura do DMOZ em um SGBD e
cruzamos com os dados dos favoritos dos usuários
o Selecionamos apenas os favoritos com URI de sites de notícias.

• Foi elaborado um histograma para visualizar a quantidade
de notícias de cada site
o Estabelecemos um threshold: trabalharíamos apenas com os TOP-10
sites de notícias

1. Classificação de notícia

2. Pré-Processamento

• Stumble Upon permite qualquer texto para Cidade, Estado e
País do usuário
o Ocorrem valores vazios, ambíguos, inválidos.

• Google Maps API permite geocodificar nomes de locais:
o Subtemos o texto sem tratameto para o web-service
o Obtivemos a coordenada do usuário no mundo

• O país de cada usuário foi encontrado com operações
espaciais no PostGIS:
o o país oficial do usuário é aquele que contém sua coordenada geográfica. Ex:
 País = vazio, Estado = "Minas", Cidade = "BH"
 Coordenada: -19.8157306, -43.9542226
 Usuário dentro do Brasil.

3. Transformações

• Devido ao tamanho da base de bookmarks foi necessário
dividí-la em múltiplas tabelas menores para evitar um lack
de swap no banco de dados.

• Em seguida, para cada país, colocou-se os dados no
seguinte formato:

                          CNN          BBC        NY Times
      User 1         5              0              7
      User 2         0             12             3

4. Mining


    Utilizou-se o fp-growth para minerar frequent itemset referentes a co-
ocorrência de notícia por país;

    A implementaçào de Balázs Rácz, Ferenc Bodon, Lars Schmidt-
Thieme foi desenvolvda em C++ e está disponível em:
 http://www.cs.bme.hu/~bodon/en/fim_env/

    Após a execução do método, obteve-se para cada país, os padrões de
ocorrência dos sites de notícia e a quantidade de ocorrências

    Foram variado os valores do suportes para obter os itemsets mais
significativos. Consideramos:
 Número mínimo de usuários: 10, 50 e 100
 Suporte mínimo para padrão: 30% , 40% e 50%

5. Análise: Nº de países por padrão

Conclusão e considerações
• Observamos que poucos provedores de notícia são
responsáveis por mais de 90% das notícias
marcadas como favoritos.

• Não houve nenhum padrão que ocorresse em
apenas um país.

• Após coleta e tratamento desta base de dados é
possível realizar outras análises com baixo custo.

Caracterização do padrão de acesso a websites de notícia por usuários do StumbleUpon

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a Caracterização do padrão de acesso a websites de notícia por usuários do StumbleUpon

Semelhante a Caracterização do padrão de acesso a websites de notícia por usuários do StumbleUpon (15)

Caracterização do padrão de acesso a websites de notícia por usuários do StumbleUpon