Caracterização do padrão de acesso a
websites de notícia por usuários em uma
redes social de bookmarks: StumbleUpon


    ...
Sumário

    1. Seleção 
              Entendimento sobre o domínio do problema
 
    2. Pré-Processamento
              L...
1. Seleção: Definição do Problema
        

    • StumbleUpon permite que usuários listem sites favoritos 
      e acompan...
1. Seleção: Extração dos dados
          


      1. Coleta dos profiles dos usuários (~1 semana; ~ 45K) 
                ...
1. Seleção: Classificação de notícias
        


    • Como filtrar os bookmarks que são de notícia? 
 
    • O projeto DM...
1. Classificação de notícia
         
2. Pré-Processamento

• Stumble Upon permite qualquer texto para Cidade, Estado e 
  País do usuário
  o   Ocorrem valores...
2. Usuários pelo mundo
3. Transformações

 • Devido ao tamanho da base de bookmarks foi necessário 
   dividí-la em múltiplas tabelas menores par...
4. Mining
        


         Utilizou-se o fp-growth para minerar frequent itemset referentes a co-
       ocorrência de...
4. Análise do Suporte
         
5. Análise: Nº de países por padrão 
Conclusão e considerações
•   Observamos que poucos provedores de notícia são 
    responsáveis por mais de 90% das notíci...
Próximos SlideShares
Carregando em…5
×

Caracterização do padrão de acesso a websites de notícias por usuários em uma rede social de bookmarks: StumbleUpon

282 visualizações

Publicada em

Slides Projeto Aplicacao MD

Publicada em: Tecnologia
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
282
No SlideShare
0
A partir de incorporações
0
Número de incorporações
4
Ações
Compartilhamentos
0
Downloads
4
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Caracterização do padrão de acesso a websites de notícias por usuários em uma rede social de bookmarks: StumbleUpon

  1. 1. Caracterização do padrão de acesso a websites de notícia por usuários em uma redes social de bookmarks: StumbleUpon  Christiano T., Emanuel V. e Rafael O. {teixeira,vianna,odon}@dcc.ufmg.br  Mineração de Dados - DCC/UFMG - Wagner Meira Jr.
  2. 2. Sumário     1. Seleção                Entendimento sobre o domínio do problema       2. Pré-Processamento               Limpeza dos dados e pré-processamentos       3. Transformação               Redução e projeção dos dados     4. Mining               Escolha de aplicação da técnica de mineração     5. Avaliação               Interpretação e consolidação do conhecimento
  3. 3. 1. Seleção: Definição do Problema          • StumbleUpon permite que usuários listem sites favoritos  e acompanhem os favoritos de amigos.    • O objeto de pesquisa foram websites de notícias • Propõe-se a avaliar a co-ocorrência de sites de notícia  marcados como favorito por usuários de um mesmo país.  o Um usuário do país X que se interessa pelo site de  notícia A também se interessa pelo site B?
  4. 4. 1. Seleção: Extração dos dados                1. Coleta dos profiles dos usuários (~1 semana; ~ 45K)   Estratégia Snow Ball: inicia dos top-usuários e expande a árvore  pelos  subscriptions até completar o componente gigante    Dados: login, cidade, estado, país, genêro e data de nascimento, nº de  favoritos, nº de reviews, nº de subscriptions/subscribers   1 máquina rodando 25 threads (dependência entre os níveis da árvore)        2. Coleta dos bookmarks por usuário (~4 semanas; ~20M)  Dados: login, url, data de marcação, lista de tags, nº de reviews  6 máquinas, cada uma rodando 2 processos com 20 threads              
  5. 5. 1. Seleção: Classificação de notícias          • Como filtrar os bookmarks que são de notícia?    • O projeto DMOZ é um diretório aberto de sites que organiza  tudo em categorias, sendo uma delas de notícias   • Carregamos a estrutura do DMOZ em um SGBD e  cruzamos com os dados dos favoritos dos usuários  o Selecionamos apenas os favoritos com URI de sites de notícias.   • Foi elaborado um histograma para visualizar a quantidade  de notícias de cada site o Estabelecemos um threshold: trabalharíamos apenas com os TOP-10 sites de notícias
  6. 6. 1. Classificação de notícia          
  7. 7. 2. Pré-Processamento • Stumble Upon permite qualquer texto para Cidade, Estado e  País do usuário o Ocorrem valores vazios, ambíguos, inválidos. • Google Maps API permite geocodificar nomes de locais: o Subtemos o texto sem tratameto para o web-service o Obtivemos a coordenada do usuário no mundo • O país de cada usuário foi encontrado com operações  espaciais no PostGIS: o o país oficial do usuário é aquele que contém sua coordenada geográfica. Ex:  País = vazio, Estado = "Minas", Cidade = "BH"  Coordenada: -19.8157306, -43.9542226  Usuário dentro do Brasil.
  8. 8. 2. Usuários pelo mundo
  9. 9. 3. Transformações • Devido ao tamanho da base de bookmarks foi necessário  dividí-la em múltiplas tabelas menores para evitar um lack  de swap no banco de dados. • Em seguida, para cada país, colocou-se os dados no  seguinte formato:                           CNN          BBC        NY Times       User 1         5              0              7       User 2         0             12             3
  10. 10. 4. Mining              Utilizou-se o fp-growth para minerar frequent itemset referentes a co- ocorrência de notícia por país;     A implementaçào de Balázs Rácz, Ferenc Bodon, Lars Schmidt- Thieme foi desenvolvda em C++ e está disponível em:   http://www.cs.bme.hu/~bodon/en/fim_env/     Após a execução do método, obteve-se para cada país, os padrões de  ocorrência dos sites de notícia e a quantidade de ocorrências     Foram variado os valores do suportes para obter os itemsets mais  significativos. Consideramos:  Número mínimo de usuários: 10, 50 e 100  Suporte mínimo para padrão: 30% , 40% e 50%
  11. 11. 4. Análise do Suporte          
  12. 12. 5. Análise: Nº de países por padrão 
  13. 13. Conclusão e considerações • Observamos que poucos provedores de notícia são  responsáveis por mais de 90% das notícias  marcadas como favoritos.  • Não houve nenhum padrão que ocorresse em  apenas um país. • Após coleta e tratamento desta base de dados é  possível realizar outras análises com baixo custo. 

×