Tag suggestion using multiple sources of knowledgeÍcaro MedeirosFred FreitasH. Sofia Pinto19/07/2010
RoteiroIntroduçãoSistemas de tagging social e folksonomiasMotivaçãoTrabalho relacionadoSugestão de tagsANTaReSImplementaçãoResultadosDiscussãoConclusão
Introdução
Sistemas de tagging socialUsuários atribuem tags (palavras-chave) a recursosPáginas Web, fotos, vídeosDelicious: 150.000 bookmarks/dia
Youtube – vídeos + tags52 milhões de visitantes/mês
Tagging social: atributosTags são palavras-chave escolhidas livrementeNÃO HÁ vocabulário pré-definido (Mathes, 2004)Encoraja a atribuição de tagsAtribuição é geralmente colaborativaSão também redes sociais e/ou agregadores de conteúdo publicado por usuáriosOrganização de conteúdo aumenta a popularidade dos STS
Navegação por tags
FolksonomiasResultado de usuáriosinteragindo com o STS aoatribuirtags a recursosTags Colaborativas+Semântica emergindo da comunidade =Classificação  baixo-cima  conhecida como folksonomia(Mathes, 2004)
Desvantagens de STSVocabulário livre leva à ambiguidadePolissemia: whistle (instrumento) e whistle (som)Homonímia: Java (linguagem) e Java (café)Sinônimos: Buy/purchasePalavras ligadas: webdev, semweb, semantic_webTags populares no Delicious 25-10-09
Atribuição incorreta de tags
tags?tags!Processo de sugestão de tagsSTS“pede” TAGS!usauploadanalizaRecursoSistema de SugestãoFolksonomiagosta deanalizapredizsão sugeridastag1tag2tags
Sugestão no DeliciousTags mais usadas para um recursoIntersecção com folksonomia pessoal
Vantagens da sugestão(Heymannet al.,2008b)Convergência de  vocabulárioCobertura maior para consultas por tagsConcordância entre usuáriosDesambiguação de tagsBootstrapping
Trabalho Relacionado
Filtragem colaborativaDados os recursosA com tags {x,y}B com tags {z,w}E um novo documento CSugerir ao recurso C tags do documento mais similar (A)(Jäschkeet al., 2007)Só sugere termos que já estão na folksonomia
Aprendizagem de MáquinaAprenderpadrões para “saber” quando um termo pode ser usado como tagPágina WebCorpusPágina WebClassificadorRecursosTreinamentoClassificadorNovo recursotag1, tag2tag1, tag2tag1, tag2tag3, tag4
Sugestão de Tag com AMTermos - conjunto de atributos (features)Um classificador é construído por padrões desses atributosEx: Um termo no títulopode ser uma boa tagMétodosMáquinas de Vetor Suporte (Wang and Davison, 2008)
ANTaReSA Novel TAgREcommendation System
ObjetivosSugerir tags a páginas WebEspecialmente (novas) palavras-chave não presentes na folksonomiaO método deve ser capaz de se adaptar à dinâmicas de vocabulárioAprendizagem de Máquina
Fontes de informaçãoAtributos de páginas Webdel.icio.us<description> leadingsocial bookmarkingservice</>The tastiestbookmarks on the web.Atributos HTML (title, keywords)
Recuperação de informação (TF,IDF)
Atributos linguísticosPáginas inbound<description> leading social bookmarking service</>The tastiest bookmarks on the web.del.icio.usÂncora
Contexto do link
Texto da páginaInbound linkDelicious (website) - WikipediaDelicious is a social bookmarking web service
Bases de conhecimentoTermosRelacionadosdel.icio.usWordnet<description> leading social bookmarking service </>The tastiest bookmarks on the web.consultasEx: Sinônimos de termos relevantes de páginas Web
MetodologiaUm classificador (SVM) para cada fonteResultados combinados são usados para predizer se um termo é uma tag ou nãoAnálisesFonte x TagsComparação com tags do Delicious Comparação com trabalhos relacionadosAvaliação dos por usuários
Experimentos e Resultados
Extração do datasetTags maispopulares no Delicious (199)Para cada top tag, páginaspopularesusando-as foramrecuperadas(~ 7 págs/tag)Para cadapágina, as tags maisusadasparaelaforamextraídas(~ 9.8 tags/pág)Resultado: 1394páginas13667 tags (2201 únicas)
Fontes x TagsDas tags do Delicious, quantas são encontradasNo textoNas páginas InboundNos termos relacionados do Wordnet
Fontes x Tags : resultados
Impacto dos atributosConhecer sua naturezaMedidas padrão (%): Precisão, Cobertura (recall), F-1Cobertura calculada usando apenas tags encontradas na fonte testadaExperimentosCada atributo isoladamenteRemovendo um atributo do conjunto totalAdicionando atributos ao conjunto um por um
Atributos de páginas Web isolados
Atributos do Wordnet isolados
Removendo um atributo do conjunto total (atributos de páginas Web)
Removendo atributo de páginas inbound
Removendo atributos Wordnet
Adicionando atributos de páginas Web um a um
Melhores resultados para cada fonteRecall “real”
Classificador combinadoUsando os melhores resultados de cada fonte (e regra do produto)Pouca diferença entre métodos de combinação
Diferentes métodos de classificaçãoResultadocombinado
Comparação com outros trabalhos
Avaliação baseada em usuáriosUsuários:Lêema páginaAtribuem 3 a 5 tags a elaMarcam como boa/ruim tags sugeridas44 docs, 12 usuários, 11 docs/usuárioe 3 usuários/docMedidas:Precisão1+, precisão2+ e precisão3“Cobertura”Novidade
Resultados (média)Precisão1+: ~94%Precisão2+: ~77%Precisão3: ~44% Cobertura:  ~20%Novidade: ~20%
Discussão
ResultadosSatisfatórios em relação aTags do DeliciousTrabalhos estado da arte em sugestão de tagsAvaliação de usuários reais
Conclusão
ConclusãoSugestão de tags com vários atributos de múltiplas fontes de informaçãoTagsnovas e interessantesObjetivos cumpridosA solução pode ser usada em cenários reais

Tag Suggestion using Multiple Sources of Knowledge

Notas do Editor

  • #5 - CONTEXTO DAS SOLUÇÕES DE SUGESTÃO DE TAGS- ORGANIZAÇÃO DE PÁGINAS
  • #6 TAGS NUM DOS SITES MAIS POPULARES DA WEB DESCRIÇÃO E ORGANIZAÇÃO SERIA MAIS DIFÍCIL SEM TAGS
  • #7 - N HÁ CLASSIFICAÇÃO HIERÁRQUICA, DITA MTO RÍGIDA P CLASSIFICAR DADOS NA WEB- AGREGADORES -&gt; SISTEMAS DE COMPARTILHAMENTO DE RECURSOS (URLS NO DELICIOUS, VIDEOS NO YOUTUBE)
  • #8 POPULAR TAGSRAILS ( SEE MORE ) RUBY, PROGRAMAÇÃO
  • #9 FOLK + TAXONOMY
  • #10 PALAVRAS LIGADAS = BINDED WORDS
  • #11 // Coffee não é uma boa tag pra descrever essa página
  • #12 [FIM] PROCESSO “GENÉRICO”... EXEMPLO – SUGESTÃO NO DELICIOUS. . .
  • #13 PARA UM RECURSO – JÁ Q VÁRIOS USUÁRIOS PODEM ENVIAR A MESMA URL
  • #14 DESAMBIGUAÇÃO – JAVA (ÚNICA TAG EM PÁGS SOBRE LING E CAFÉ)- ATÉ AQUI == O QUE E PORQUÊ DE SUGESTÃO. MAS COMO?
  • #17 TREINAMENTO = DATASET DELICIOUS (PÁGS,TAGS)
  • #18 AM – MAIS USADA E COM BONS RESULTADOS EM SUGESTÃOMÁQUINA VETOR SUPORTE – USADA COM SUCESSO EM DIVERSAS APLICAÇÕES, ESPECIALMENTE EM TAREFAS ENVOLVENDO TEXTO
  • #19 NÃO É SISTEMA, É SOLUÇÃO!!!!
  • #21 // total number of 15 features
  • #22 // Delicious is not a goodexample of inboundanchor
  • #23 -- VERMELHO – TERMOS RELEVANTES NA PÁGINA ALVO-- EX: QTAS VEZES UM TERMO APARECEU COMO RELACIONADO NAS VÁRIAS CONSULTAS
  • #24 CLASSIFICADOR SVM (MAS A SOLUÇÃO É INDEPENDENTE DE MÉTODO)
  • #29 PRECISÃO: DOS TERMOS CLASSIFICADOS COMO TAGS, QTAS DECISÕES FORAM CORRETASCOBERTURA: DE TODAS AS TAGS, QTAS FORAM CORRETAMENTE CLASSIFICADAS?
  • #30 N DÁ PRA DESCREVER TODAS AS FEATURES, ALGUMAS SÃO ÓBVIAS PELO NOMEPRECISÃO TITLE - RECALL IDF
  • #31 !!!!!!EXPERIMENTO INBOUND N CONVERGIU!!!!!INBOUND INBOUNDINBOUND
  • #32 RESULTADOS QUE MAIS “GANHAM” COM A REMOÇÃO DE UM ATRIBUTO, A DIFERENÇA É MÍNIMAHÁ REDUDÂNCIA NA INFORMAÇÃO QUE OS ATRIBUTOS CARREGAM
  • #33 TODAS AS FEATURES SÃO IMPORTANTES, INFLUI DIRETAMENTE NA PERDA DE F-1
  • #34 VOLTAR AO SLIDE 30!!! FREQUENCY OF OCCURRENCE DOMINA AS OUTRAS FEATURES
  • #35 NÃO FOI FEITO EXPERIMENTO PARA WORDNET E INBOUND (REDUDANTE COM O ANTERIOR)
  • #36 RECALL CONDIZENTE COM A ANÁLISE FONTES X TAGS
  • #37 ==CLASSIFICADOR INBOUND “ATRAPALHA” A DECISÃO DOS OUTROS
  • #39 DATASET USADO EM 2008B
  • #40 COVERAGE – Similar A COBERTURANOVELTY - tags marked as goodbutnotassigned
  • #41 Precision1 – QUASE TODAS AS TAGS FORAM CONSIDERADAS BOAS POR PELO MENOS 1 USUARIOPrecision3 - User-agreement is difficultCoverage - Usersand ANTaReS use differentvocabularies. Lots of synonyms (pageand site) andbindedwords (user: “webpage”, antares: “web”, “page”)Novelty:2/10 tags werenotthought of byuser, notobvious