Sistema de Recomendação de Artigos Científicos a Partir de um Texto Exemplo   Christiano Avila S tanley Loh Frederico Fonseca
Sumário Introdução SisRecAC Experimentos Resultados Considerações Finais / Conclusões Apoio
Introdução Segundo Spink et al.[19]: 52% das consultas submetidas aos mecanismos de buscas são reformuladas 32,5% das consultas modificadas sofreram alterações nos termos submetidos, mas não no número total de termos 41,6% incluíram termos novos  25,9% eram relativas a consultas modificadas pela exclusão de termos. Pesquisa da iProspect concluiu que 82% dos usuários de mecanismos de busca refazem consultas não bem sucedidas acrescentando mais palavras.
Introdução Silverstein et al. [17],  Lau & Horvitz [10], Spink et al. [19], Teevan et al. [20] constatam que usuários utilizam entre 2 e 3 termos em média Entretanto, Kraft et al. [8], concluíram que o número ideal de palavras a serem submetidas para busca nos mecanismos deve ficar entre 5 e 9.
Introdução Belkin et al. [2] e o Estado Anômalo de Conhecimento (ASK - Anomalous State of Knowledge).  Problema para especificar precisamente os termos Os mecanismos de busca tradicionais exigem que o usuário tenha algum conhecimento  Contradição pedir ao usuário para formular o que precisa se é isto justamente o que falta. “ Método” de  tentativa e erro que toma tempo e pode gerar frustração com o mecanismo de busca.
Introdução Motivação  dificuldade para determinar as palavras-chave. Aplicações na área de apoio ao ensino
SisRecAC Sistema de recomendação de artigos científicos (SisRecAC) Baseado no paradigma de “ query by example ”  É um sistema de metabusca
SisRecAC Partida a frio (Cold start), pouca possibilidade de surpresa (serendipity ) Ter o documento de exemplo ASK Problemas Movielens, Grupolens, diversos sistemas de e-commerce SisRecAC Google, Yahoo, outros Exemplos O sistema constrói um perfil dos usuários (filtragem colaborativa, baseado em conteúdo) O usuário informa um exemplo do que precisa O usuário deve saber informar corretamente as palavras-chave Descrição Paradigma 2 Query by exemplo Paradigma 1
SisRecAC Faz upload de um  Documento (.pdf, .txt) 2)  Escolhe um método usuário 3)  Extrai palavras-chave do Documento 5)Links para  Artigos científicos 4) Submete  Palavras-chave 6) Recebe as  recomendações 7) Faz a avaliação
SisRecAC
Tags Upload
Upload Recomendação 1 Recomendação   2 Recomendação   3
SisRecAC Métodos Identificar ou extrair de características do documento  Submeter consulta ao mecanismo de busca. Comparar diferentes métodos de extração de palavras-chave de textos.  Utilizar título e “ tags ” informadas pelos usuários.
SisRecAC Expressões Método 1  – uma expressão Método 2  – 2 expressões Método 3  -  3 expressões
SisRecAC Palavras com maior freqüência Método 4  - 4 palavras de maior freqüência no documento.  Métodos   5, 6, 7, 8 e 9  –  idem, porém 5, 6, 7, 8 e 9 palavras.
SisRecAC Outros métodos Método   10   - título do documento Método   11   – tags
Experimentos Seleção do Método Escolhido em função da quantidade de avaliações realizadas
Experimentos  Os usuários do SisRecAc são convidados a avaliar as recomendações do sistema. Podem informar se consideram a recomendação: Totalmente relevante Parcialmente relevante Irrelevante
Upload Recomendação   1 Recomendação   2 Recomendação   3 Avaliação
Resultados Gráfico Expressões Termos simples Título Tags
Conclusões Este projeto confirma  Kraft et al.  [8]  que descobriu que o número ideal de termos em uma consulta deve estar entre 5 e 9 Demonstra  que  sistemas de recomendação baseados no paradigma de “ query by example ” são uma alternativa viável pois o uso de exemplos minimiza o esforço do usuário para selecionar palavras-chave para representar sua intenção de busca.  O sistema apresentado nesse artigo mostra que técnicas automáticas podem alcançar boa precisão quando recomenda documentos baseados em um exemplo.  O algoritmo que extrai as palavras-chave dos documentos é relativamente simples e com baixo custo computacional se comparado a outros algoritmos com fins semelhantes. O sistema apresenta um excelente potencial de utilização na área acadêmica, onde manuais, artigos, apostilas e conteúdos programáticos poderiam ser utilizados como texto base para recomendação.
Trabalhos futuros Descoberta de conhecimento em “folksonomias” Uso de tags com expansão baseada em folksonomias Ampliar os recursos do SisRecAc (agentes, convites, uso de perfil, …) Integração com o Sistema de Apoio da UCPEL (conteúdos programáticos, uploads de professores, …)
Apoio Este trabalho é parcialmente apoiado pela FAPERGS (Fundação de Amparo à Pesquisa do Estado do Rio Grande do Sul).
Sistema de Recomendação de Artigos Científicos a Partir de um Texto Exemplo   Christiano Avila – chris AT direto2.ucpel.tche.br S tanley Loh - loh AT ucpel.tche.br Frederico Fonseca - frederico12345 AT gmail.com
 
 
 
Experimentos  Total de usuários:32 Total de documentos:179 Total de avaliações:929

Webmedia2007 V4

  • 1.
    Sistema de Recomendaçãode Artigos Científicos a Partir de um Texto Exemplo Christiano Avila S tanley Loh Frederico Fonseca
  • 2.
    Sumário Introdução SisRecACExperimentos Resultados Considerações Finais / Conclusões Apoio
  • 3.
    Introdução Segundo Spinket al.[19]: 52% das consultas submetidas aos mecanismos de buscas são reformuladas 32,5% das consultas modificadas sofreram alterações nos termos submetidos, mas não no número total de termos 41,6% incluíram termos novos 25,9% eram relativas a consultas modificadas pela exclusão de termos. Pesquisa da iProspect concluiu que 82% dos usuários de mecanismos de busca refazem consultas não bem sucedidas acrescentando mais palavras.
  • 4.
    Introdução Silverstein etal. [17], Lau & Horvitz [10], Spink et al. [19], Teevan et al. [20] constatam que usuários utilizam entre 2 e 3 termos em média Entretanto, Kraft et al. [8], concluíram que o número ideal de palavras a serem submetidas para busca nos mecanismos deve ficar entre 5 e 9.
  • 5.
    Introdução Belkin etal. [2] e o Estado Anômalo de Conhecimento (ASK - Anomalous State of Knowledge). Problema para especificar precisamente os termos Os mecanismos de busca tradicionais exigem que o usuário tenha algum conhecimento Contradição pedir ao usuário para formular o que precisa se é isto justamente o que falta. “ Método” de tentativa e erro que toma tempo e pode gerar frustração com o mecanismo de busca.
  • 6.
    Introdução Motivação dificuldade para determinar as palavras-chave. Aplicações na área de apoio ao ensino
  • 7.
    SisRecAC Sistema derecomendação de artigos científicos (SisRecAC) Baseado no paradigma de “ query by example ” É um sistema de metabusca
  • 8.
    SisRecAC Partida afrio (Cold start), pouca possibilidade de surpresa (serendipity ) Ter o documento de exemplo ASK Problemas Movielens, Grupolens, diversos sistemas de e-commerce SisRecAC Google, Yahoo, outros Exemplos O sistema constrói um perfil dos usuários (filtragem colaborativa, baseado em conteúdo) O usuário informa um exemplo do que precisa O usuário deve saber informar corretamente as palavras-chave Descrição Paradigma 2 Query by exemplo Paradigma 1
  • 9.
    SisRecAC Faz uploadde um Documento (.pdf, .txt) 2) Escolhe um método usuário 3) Extrai palavras-chave do Documento 5)Links para Artigos científicos 4) Submete Palavras-chave 6) Recebe as recomendações 7) Faz a avaliação
  • 10.
  • 11.
  • 12.
    Upload Recomendação 1Recomendação 2 Recomendação 3
  • 13.
    SisRecAC Métodos Identificarou extrair de características do documento Submeter consulta ao mecanismo de busca. Comparar diferentes métodos de extração de palavras-chave de textos. Utilizar título e “ tags ” informadas pelos usuários.
  • 14.
    SisRecAC Expressões Método1 – uma expressão Método 2 – 2 expressões Método 3 - 3 expressões
  • 15.
    SisRecAC Palavras commaior freqüência Método 4 - 4 palavras de maior freqüência no documento. Métodos 5, 6, 7, 8 e 9 – idem, porém 5, 6, 7, 8 e 9 palavras.
  • 16.
    SisRecAC Outros métodosMétodo 10 - título do documento Método 11 – tags
  • 17.
    Experimentos Seleção doMétodo Escolhido em função da quantidade de avaliações realizadas
  • 18.
    Experimentos Osusuários do SisRecAc são convidados a avaliar as recomendações do sistema. Podem informar se consideram a recomendação: Totalmente relevante Parcialmente relevante Irrelevante
  • 19.
    Upload Recomendação 1 Recomendação 2 Recomendação 3 Avaliação
  • 20.
    Resultados Gráfico ExpressõesTermos simples Título Tags
  • 21.
    Conclusões Este projetoconfirma Kraft et al. [8] que descobriu que o número ideal de termos em uma consulta deve estar entre 5 e 9 Demonstra que sistemas de recomendação baseados no paradigma de “ query by example ” são uma alternativa viável pois o uso de exemplos minimiza o esforço do usuário para selecionar palavras-chave para representar sua intenção de busca. O sistema apresentado nesse artigo mostra que técnicas automáticas podem alcançar boa precisão quando recomenda documentos baseados em um exemplo. O algoritmo que extrai as palavras-chave dos documentos é relativamente simples e com baixo custo computacional se comparado a outros algoritmos com fins semelhantes. O sistema apresenta um excelente potencial de utilização na área acadêmica, onde manuais, artigos, apostilas e conteúdos programáticos poderiam ser utilizados como texto base para recomendação.
  • 22.
    Trabalhos futuros Descobertade conhecimento em “folksonomias” Uso de tags com expansão baseada em folksonomias Ampliar os recursos do SisRecAc (agentes, convites, uso de perfil, …) Integração com o Sistema de Apoio da UCPEL (conteúdos programáticos, uploads de professores, …)
  • 23.
    Apoio Este trabalhoé parcialmente apoiado pela FAPERGS (Fundação de Amparo à Pesquisa do Estado do Rio Grande do Sul).
  • 24.
    Sistema de Recomendaçãode Artigos Científicos a Partir de um Texto Exemplo Christiano Avila – chris AT direto2.ucpel.tche.br S tanley Loh - loh AT ucpel.tche.br Frederico Fonseca - frederico12345 AT gmail.com
  • 25.
  • 26.
  • 27.
  • 28.
    Experimentos Totalde usuários:32 Total de documentos:179 Total de avaliações:929