SlideShare uma empresa Scribd logo
1 de 13
Baixar para ler offline
Caracterização do padrão de acesso a
websites de notícia por usuários em uma
redes social de bookmarks: StumbleUpon


      Christiano T., Emanuel V. e Rafael O.
      {teixeira,vianna,odon}@dcc.ufmg.br




     Mineração de Dados - DCC/UFMG - Wagner Meira Jr.
Sumário

    1. Seleção 
              Entendimento sobre o domínio do problema
 
    2. Pré-Processamento
              Limpeza dos dados e pré-processamentos
 
    3. Transformação
              Redução e projeção dos dados

    4. Mining
              Escolha de aplicação da técnica de mineração

    5. Avaliação
              Interpretação e consolidação do conhecimento
1. Seleção: Definição do Problema
        

    • StumbleUpon permite que usuários listem sites favoritos 
      e acompanhem os favoritos de amigos.
    
    • O objeto de pesquisa foram websites de notícias

    • Propõe-se a avaliar a co-ocorrência de sites de notícia 
      marcados como favorito por usuários de um mesmo país. 
           o   Um usuário do país X que se interessa pelo site de 
               notícia A também se interessa pelo site B?
1. Seleção: Extração dos dados
          


      1. Coleta dos profiles dos usuários (~1 semana; ~ 45K) 
                 Estratégia Snow Ball: inicia dos top-usuários e expande a árvore 
                  pelos  subscriptions até completar o componente gigante  
                 Dados: login, cidade, estado, país, genêro e data de nascimento, nº de 
                  favoritos, nº de reviews, nº de subscriptions/subscribers 
                 1 máquina rodando 25 threads (dependência entre os níveis da árvore)

       2. Coleta dos bookmarks por usuário (~4 semanas; ~20M)
                 Dados: login, url, data de marcação, lista de tags, nº de reviews

                 6 máquinas, cada uma rodando 2 processos com 20 threads

             
1. Seleção: Classificação de notícias
        


    • Como filtrar os bookmarks que são de notícia? 
 
    • O projeto DMOZ é um diretório aberto de sites que organiza 
      tudo em categorias, sendo uma delas de notícias
 
    • Carregamos a estrutura do DMOZ em um SGBD e 
      cruzamos com os dados dos favoritos dos usuários 
           o   Selecionamos apenas os favoritos com URI de sites de notícias.
 
    • Foi elaborado um histograma para visualizar a quantidade 
      de notícias de cada site
           o   Estabelecemos um threshold: trabalharíamos apenas com os TOP-10
               sites de notícias
1. Classificação de notícia
         
2. Pré-Processamento

• Stumble Upon permite qualquer texto para Cidade, Estado e 
  País do usuário
  o   Ocorrem valores vazios, ambíguos, inválidos.

• Google Maps API permite geocodificar nomes de locais:
  o   Subtemos o texto sem tratameto para o web-service
  o   Obtivemos a coordenada do usuário no mundo

• O país de cada usuário foi encontrado com operações 
  espaciais no PostGIS:
  o   o país oficial do usuário é aquele que contém sua coordenada geográfica. Ex:
        País = vazio, Estado = "Minas", Cidade = "BH"
        Coordenada: -19.8157306, -43.9542226
        Usuário dentro do Brasil.
2. Usuários pelo mundo
3. Transformações

 • Devido ao tamanho da base de bookmarks foi necessário 
   dividí-la em múltiplas tabelas menores para evitar um lack 
   de swap no banco de dados.

 • Em seguida, para cada país, colocou-se os dados no 
   seguinte formato:

                          CNN          BBC        NY Times
      User 1         5              0              7
      User 2         0             12             3
4. Mining
        


         Utilizou-se o fp-growth para minerar frequent itemset referentes a co-
       ocorrência de notícia por país;

         A implementaçào de Balázs Rácz, Ferenc Bodon, Lars Schmidt-
       Thieme foi desenvolvda em C++ e está disponível em: 
            http://www.cs.bme.hu/~bodon/en/fim_env/

         Após a execução do método, obteve-se para cada país, os padrões de 
       ocorrência dos sites de notícia e a quantidade de ocorrências

         Foram variado os valores do suportes para obter os itemsets mais 
       significativos. Consideramos:
            Número mínimo de usuários: 10, 50 e 100
            Suporte mínimo para padrão: 30% , 40% e 50%
4. Análise do Suporte
         
5. Análise: Nº de países por padrão 
Conclusão e considerações
•   Observamos que poucos provedores de notícia são 
    responsáveis por mais de 90% das notícias 
    marcadas como favoritos. 


•   Não houve nenhum padrão que ocorresse em 
    apenas um país.


•   Após coleta e tratamento desta base de dados é 
    possível realizar outras análises com baixo custo. 

Mais conteúdo relacionado

Semelhante a Caracterização do padrão de acesso a websites de notícia por usuários do StumbleUpon

OpenStreetMap : um mapa wiki mundial livre
OpenStreetMap : um mapa wiki mundial livreOpenStreetMap : um mapa wiki mundial livre
OpenStreetMap : um mapa wiki mundial livreSeverin Menard
 
Visualização de dados
Visualização de dadosVisualização de dados
Visualização de dadoslrmodesto
 
Fisl 16 - Como informar os resultados da eleição antes do tse
Fisl 16 - Como informar os resultados da eleição antes do tseFisl 16 - Como informar os resultados da eleição antes do tse
Fisl 16 - Como informar os resultados da eleição antes do tseThiago Dieb
 
OpenStreetMap : um mapa wiki mondial livre. Seu uso nas situações de crise ...
 OpenStreetMap : um mapa wiki mondial livre.  Seu uso nas situações de crise ... OpenStreetMap : um mapa wiki mondial livre.  Seu uso nas situações de crise ...
OpenStreetMap : um mapa wiki mondial livre. Seu uso nas situações de crise ...Severin Menard
 
Gestão em Ambientes Digitais - aula 2
Gestão em Ambientes Digitais - aula 2Gestão em Ambientes Digitais - aula 2
Gestão em Ambientes Digitais - aula 2Luiz Adolfo de Andrade
 
Conhecendo o desejo de mais de 10 milhões de usuários por dia
Conhecendo o desejo de mais de 10 milhões de usuários por diaConhecendo o desejo de mais de 10 milhões de usuários por dia
Conhecendo o desejo de mais de 10 milhões de usuários por diaDiogo Munaro Vieira
 
Oficina Técnica da INDA em Belém no Consegi
Oficina Técnica da INDA em Belém no ConsegiOficina Técnica da INDA em Belém no Consegi
Oficina Técnica da INDA em Belém no Conseginitaibezerra
 
Fecam seminario municio_20_maio
Fecam seminario municio_20_maioFecam seminario municio_20_maio
Fecam seminario municio_20_maioWeb2 Brasil
 
Design para seu Complexo de Mídias [2016]
Design para seu Complexo de Mídias [2016]Design para seu Complexo de Mídias [2016]
Design para seu Complexo de Mídias [2016]Isaac Trabuco
 
Banco de dados e CMS
Banco de dados e CMSBanco de dados e CMS
Banco de dados e CMSIuri Lammel
 
Curso noçoes sobre uso internet intranet
Curso noçoes sobre uso internet intranetCurso noçoes sobre uso internet intranet
Curso noçoes sobre uso internet intranetMaria Celina Rodrigues
 

Semelhante a Caracterização do padrão de acesso a websites de notícia por usuários do StumbleUpon (15)

Big Data
Big DataBig Data
Big Data
 
OpenStreetMap : um mapa wiki mundial livre
OpenStreetMap : um mapa wiki mundial livreOpenStreetMap : um mapa wiki mundial livre
OpenStreetMap : um mapa wiki mundial livre
 
Big Data na globo.com
Big Data na globo.comBig Data na globo.com
Big Data na globo.com
 
Visualização de dados
Visualização de dadosVisualização de dados
Visualização de dados
 
Fisl 16 - Como informar os resultados da eleição antes do tse
Fisl 16 - Como informar os resultados da eleição antes do tseFisl 16 - Como informar os resultados da eleição antes do tse
Fisl 16 - Como informar os resultados da eleição antes do tse
 
Aula CRP-0420-2016-04: Big Data 1
Aula CRP-0420-2016-04: Big Data 1Aula CRP-0420-2016-04: Big Data 1
Aula CRP-0420-2016-04: Big Data 1
 
OpenStreetMap : um mapa wiki mondial livre. Seu uso nas situações de crise ...
 OpenStreetMap : um mapa wiki mondial livre.  Seu uso nas situações de crise ... OpenStreetMap : um mapa wiki mondial livre.  Seu uso nas situações de crise ...
OpenStreetMap : um mapa wiki mondial livre. Seu uso nas situações de crise ...
 
Gestão em Ambientes Digitais - aula 2
Gestão em Ambientes Digitais - aula 2Gestão em Ambientes Digitais - aula 2
Gestão em Ambientes Digitais - aula 2
 
Conhecendo o desejo de mais de 10 milhões de usuários por dia
Conhecendo o desejo de mais de 10 milhões de usuários por diaConhecendo o desejo de mais de 10 milhões de usuários por dia
Conhecendo o desejo de mais de 10 milhões de usuários por dia
 
Oficina Técnica da INDA em Belém no Consegi
Oficina Técnica da INDA em Belém no ConsegiOficina Técnica da INDA em Belém no Consegi
Oficina Técnica da INDA em Belém no Consegi
 
Fecam seminario municio_20_maio
Fecam seminario municio_20_maioFecam seminario municio_20_maio
Fecam seminario municio_20_maio
 
Ai ad-tp1-g4-a
Ai ad-tp1-g4-aAi ad-tp1-g4-a
Ai ad-tp1-g4-a
 
Design para seu Complexo de Mídias [2016]
Design para seu Complexo de Mídias [2016]Design para seu Complexo de Mídias [2016]
Design para seu Complexo de Mídias [2016]
 
Banco de dados e CMS
Banco de dados e CMSBanco de dados e CMS
Banco de dados e CMS
 
Curso noçoes sobre uso internet intranet
Curso noçoes sobre uso internet intranetCurso noçoes sobre uso internet intranet
Curso noçoes sobre uso internet intranet
 

Caracterização do padrão de acesso a websites de notícia por usuários do StumbleUpon

  • 1. Caracterização do padrão de acesso a websites de notícia por usuários em uma redes social de bookmarks: StumbleUpon  Christiano T., Emanuel V. e Rafael O. {teixeira,vianna,odon}@dcc.ufmg.br  Mineração de Dados - DCC/UFMG - Wagner Meira Jr.
  • 3. 1. Seleção: Definição do Problema          • StumbleUpon permite que usuários listem sites favoritos  e acompanhem os favoritos de amigos.    • O objeto de pesquisa foram websites de notícias • Propõe-se a avaliar a co-ocorrência de sites de notícia  marcados como favorito por usuários de um mesmo país.  o Um usuário do país X que se interessa pelo site de  notícia A também se interessa pelo site B?
  • 4. 1. Seleção: Extração dos dados                1. Coleta dos profiles dos usuários (~1 semana; ~ 45K)   Estratégia Snow Ball: inicia dos top-usuários e expande a árvore  pelos  subscriptions até completar o componente gigante    Dados: login, cidade, estado, país, genêro e data de nascimento, nº de  favoritos, nº de reviews, nº de subscriptions/subscribers   1 máquina rodando 25 threads (dependência entre os níveis da árvore)        2. Coleta dos bookmarks por usuário (~4 semanas; ~20M)  Dados: login, url, data de marcação, lista de tags, nº de reviews  6 máquinas, cada uma rodando 2 processos com 20 threads              
  • 5. 1. Seleção: Classificação de notícias          • Como filtrar os bookmarks que são de notícia?    • O projeto DMOZ é um diretório aberto de sites que organiza  tudo em categorias, sendo uma delas de notícias   • Carregamos a estrutura do DMOZ em um SGBD e  cruzamos com os dados dos favoritos dos usuários  o Selecionamos apenas os favoritos com URI de sites de notícias.   • Foi elaborado um histograma para visualizar a quantidade  de notícias de cada site o Estabelecemos um threshold: trabalharíamos apenas com os TOP-10 sites de notícias
  • 6. 1. Classificação de notícia          
  • 7. 2. Pré-Processamento • Stumble Upon permite qualquer texto para Cidade, Estado e  País do usuário o Ocorrem valores vazios, ambíguos, inválidos. • Google Maps API permite geocodificar nomes de locais: o Subtemos o texto sem tratameto para o web-service o Obtivemos a coordenada do usuário no mundo • O país de cada usuário foi encontrado com operações  espaciais no PostGIS: o o país oficial do usuário é aquele que contém sua coordenada geográfica. Ex:  País = vazio, Estado = "Minas", Cidade = "BH"  Coordenada: -19.8157306, -43.9542226  Usuário dentro do Brasil.
  • 9. 3. Transformações • Devido ao tamanho da base de bookmarks foi necessário  dividí-la em múltiplas tabelas menores para evitar um lack  de swap no banco de dados. • Em seguida, para cada país, colocou-se os dados no  seguinte formato:                           CNN          BBC        NY Times       User 1         5              0              7       User 2         0             12             3
  • 10. 4. Mining              Utilizou-se o fp-growth para minerar frequent itemset referentes a co- ocorrência de notícia por país;     A implementaçào de Balázs Rácz, Ferenc Bodon, Lars Schmidt- Thieme foi desenvolvda em C++ e está disponível em:   http://www.cs.bme.hu/~bodon/en/fim_env/     Após a execução do método, obteve-se para cada país, os padrões de  ocorrência dos sites de notícia e a quantidade de ocorrências     Foram variado os valores do suportes para obter os itemsets mais  significativos. Consideramos:  Número mínimo de usuários: 10, 50 e 100  Suporte mínimo para padrão: 30% , 40% e 50%
  • 11. 4. Análise do Suporte          
  • 12. 5. Análise: Nº de países por padrão 
  • 13. Conclusão e considerações • Observamos que poucos provedores de notícia são  responsáveis por mais de 90% das notícias  marcadas como favoritos.  • Não houve nenhum padrão que ocorresse em  apenas um país. • Após coleta e tratamento desta base de dados é  possível realizar outras análises com baixo custo.