Seminário: Towards the web of concepts extracting concepts from large datasets

131 visualizações

Publicada em

(Seminário da Disciplina de GDW a respeito do Artigo: http://goo.gl/S0ys8K)
Concepts are sequences of words that represent real or imaginary
entities or ideas that users are interested in. As a first step towards
building a web of concepts that will form the backbone of the next
generation of search technology, we develop a novel technique to
extract concepts from large datasets. We approach the problem of
concept extraction from corpora as a market-baskets problem [2],
adapting statistical measures of support and confidence. We evaluate
our concept extraction algorithm on datasets containing data
from a large number of users (e.g., the AOL query log data set [11]),
and we show that a high-precision concept set can be extracted.

Publicada em: Tecnologia
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
131
No SlideShare
0
A partir de incorporações
0
Número de incorporações
3
Ações
Compartilhamentos
0
Downloads
0
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Seminário: Towards the web of concepts extracting concepts from large datasets

  1. 1. Hugo Santos GERÊNCIA DE DADOS DA WEB 1o. SEMESTRE DE 2014 Towards The Web Of Concepts: Extracting Concepts from Large Datasets Aditya Parameswaran Stanford University Anand Rajaraman Kosmix Corporation Hector GarciaMolina Stanford University VLDB ‘10, September 1317, 2010, Singapore
  2. 2. Contextualização • Laender, A.H.F.; Ribeiro-Neto, B.A.; Silva, A.S.; Teixeira, J.S. A Brief Survey of Web Data Extraction Tools. SIGMOD Record, 31(2): 84-93, 2002.
  3. 3. Contextualização • Chang, C.-H.; Kayed, M.; Girgis, M. R.; Shaalan, K. F. A Survey of Web Information Extraction Systems. IEEE Trans. Knowl. Data Eng., 18(10): 1411-1428, 2006. ?
  4. 4. Introdução • A descoberta e busca por informação na web envolve uma rica compreensão das intenções dos usuários. • Para prover uma experiência rica para os usuários as máquinas de busca devem organizar as infomações em torno de uma rede de conceitos (Web of Concepts). • Conceitos são sequências de palavras que representam ideias ou entidades reais ou imaginárias que são do nosso interesse • (Usuários que estão buscando por informação). • Uma nova técnica de extração de conceitos a partir de um grande conjunto de dados em que a frequência/popularidade é utilizada par
  5. 5. Introdução • Uma nova técnica de extração de conceitos a partir de um grande conjunto de dados em que a frequência/popularidade dos termos é utilizada para distinguir se a sequência de palavras formam um conceito relativo à sequência de palavras que ele contem (subconceito) ou está contido (superconceito). • Por exemplo: • Subconceito: • “Rage against the” – descartado • “Against the Machine” – descartado • Superconceito: • “Rage against the machine band” - descartado • “Rage against the machine music” - descartado • Conceito • Rage Against The Machine (Conceito)
  6. 6. Contribuição • Formulação do problema de extração de conceitos a partir de grandes bases de dados; • Desenho de uma nova técnica de extração de conceito; • Avaliação da nova técnica em relação às que utilizam reconhecimento de termos (term recognition); • Estudo experimental da nova técnica variando parâmetros em função de precisão e revocação.
  7. 7. Definição de um Conceito • K-gram é uma sequencia ordenada de k palavras. • “Mary had a little lamb” • 3 x 3-grams: “Mary had a”, “had a little”, “a little lamb” • 1 x 5-grams: toda a sequencia. • Para a avaliação do método são considerados: • Todo título de artigo da Wikipedia são conceitos. • Avaliação de pessoas. • A propriedade de popularidade foca na extração de conceitos populares, excluindo conceitos que interessam a pequenas parcelas ou grupos de pessoas.
  8. 8. Propriedade Empírica • Proposição: • “Se um k-gram a1a2…ak(k >2) é um conceito, então não é verdade que ambos k-1grams são conceitos: a1a2…ak-1 e a2a3…ak. Se um 2-gram a1a2 é um conceito, então pelo menos um a1 ou a2 são conceitos.” • “Who Framed Roger Rabbit” é um conceito e contém: • “Who Framed Roger” e “Framed Roger Rabbit” não são conceitos. • “Manhattan Experimental Theater” contém: • “Manhattan Experimental” é um conceito. Enquanto “Experimental Theater” não é um conceito.
  9. 9. Algoritmos e Indicadores • Dado um k-gram ele deve possuir 3 indicadores básicos: • 1a Indicador: Frequência (Sa) • A frequencia deve ser alta. • 2a Indicador: Melhor que sub/super(conceito) • C1a = Sa/Sb (Pre-conf) e C2a = Sa/Sc (Post-Conf) • MIN-CONF = min(pre-conf ou post-conf) • Útil, pois se o min-conf é maior do que um limiar, então o k-gram será mantido em relação ao k-1 gram. • MAX-CONF = max(pre-conf ou post-conf) • Útil quando um subconceito pode ser seguido de muitas possibilidade de palavras ou frases (ex. “John” tem pre-conf e min-conf baixo, mas max-conf alto com “Lennon”) • REL-CONF: para a ser um conceito ele deve ser melhor do que qualquer k—1 gram que ele contém.
  10. 10. Algoritmos e Indicadores • 3a Indicator: conter somente porções de sentença que tenham um significado único ou ideia. • “George Bush said yesterday” é um 4-gram que não é um conceito e pode ser avaliado como sendo pelos indicadores anteriores. 1. Não pode começar ou terminar com conjunção, artigo ou pronome. 2. Começar e terminar com verbo 3. Não conter substantivos.
  11. 11. Algoritmos e Indicadores
  12. 12. Análise de Resultados • Base de buscas da AOL.
  13. 13. Análise de Resultados
  14. 14. Análise de Resultados: Parâmetros
  15. 15. Conclusão • O objetivo foi atendido. • Entretanto, o algoritmo é sensível aos limiares. Sendo que eles foram ajustados manualmente para obtenção dos resultados. (Como encontrar os limiares?)
  16. 16. Dúvidas

×