Este documento apresenta uma nova técnica para extração de conceitos a partir de grandes conjuntos de dados usando frequência e popularidade. A técnica usa três indicadores - frequência, melhor que sub/superconceitos, e significado único - para identificar conceitos. Os resultados são avaliados em buscas da AOL e mostram que a técnica extrai conceitos relevantes.
ASP.Net Performance – A pragmatic approach - Luis Paulino
Web of Concepts Extraction
1. Hugo Santos
GERÊNCIA DE DADOS DA WEB
1o. SEMESTRE DE 2014
Towards The Web Of Concepts: Extracting Concepts from
Large Datasets
Aditya Parameswaran
Stanford University
Anand Rajaraman
Kosmix Corporation
Hector GarciaMolina
Stanford University
VLDB ‘10, September 1317, 2010, Singapore
2. Contextualização
• Laender, A.H.F.; Ribeiro-Neto, B.A.; Silva, A.S.; Teixeira, J.S. A Brief Survey of Web
Data Extraction Tools. SIGMOD Record, 31(2): 84-93, 2002.
3. Contextualização
• Chang, C.-H.; Kayed, M.; Girgis, M. R.; Shaalan, K. F. A Survey of Web Information
Extraction Systems. IEEE Trans. Knowl. Data Eng., 18(10): 1411-1428, 2006.
?
4. Introdução
• A descoberta e busca por informação na web envolve uma rica
compreensão das intenções dos usuários.
• Para prover uma experiência rica para os usuários as máquinas de busca
devem organizar as infomações em torno de uma rede de conceitos (Web
of Concepts).
• Conceitos são sequências de palavras que representam ideias ou entidades
reais ou imaginárias que são do nosso interesse
• (Usuários que estão buscando por informação).
• Uma nova técnica de extração de conceitos a partir de um grande conjunto
de dados em que a frequência/popularidade é utilizada par
5. Introdução
• Uma nova técnica de extração de conceitos a partir de um grande conjunto
de dados em que a frequência/popularidade dos termos é utilizada para
distinguir se a sequência de palavras formam um conceito relativo à
sequência de palavras que ele contem (subconceito) ou está contido
(superconceito).
• Por exemplo:
• Subconceito:
• “Rage against the” – descartado
• “Against the Machine” – descartado
• Superconceito:
• “Rage against the machine band” - descartado
• “Rage against the machine music” - descartado
• Conceito
• Rage Against The Machine (Conceito)
6. Contribuição
• Formulação do problema de extração de conceitos a partir de grandes
bases de dados;
• Desenho de uma nova técnica de extração de conceito;
• Avaliação da nova técnica em relação às que utilizam reconhecimento de
termos (term recognition);
• Estudo experimental da nova técnica variando parâmetros em função de
precisão e revocação.
7. Definição de um Conceito
• K-gram é uma sequencia ordenada de k palavras.
• “Mary had a little lamb”
• 3 x 3-grams: “Mary had a”, “had a little”, “a little lamb”
• 1 x 5-grams: toda a sequencia.
• Para a avaliação do método são considerados:
• Todo título de artigo da Wikipedia são conceitos.
• Avaliação de pessoas.
• A propriedade de popularidade foca na extração de conceitos populares, excluindo conceitos que
interessam a pequenas parcelas ou grupos de pessoas.
8. Propriedade Empírica
• Proposição:
• “Se um k-gram a1a2…ak(k >2) é um conceito, então não é verdade que ambos
k-1grams são conceitos: a1a2…ak-1 e a2a3…ak. Se um 2-gram a1a2 é um
conceito, então pelo menos um a1 ou a2 são conceitos.”
• “Who Framed Roger Rabbit” é um conceito e contém:
• “Who Framed Roger” e “Framed Roger Rabbit” não são conceitos.
• “Manhattan Experimental Theater” contém:
• “Manhattan Experimental” é um conceito. Enquanto “Experimental
Theater” não é um conceito.
9. Algoritmos e Indicadores
• Dado um k-gram ele deve possuir 3 indicadores básicos:
• 1a Indicador: Frequência (Sa)
• A frequencia deve ser alta.
• 2a Indicador: Melhor que sub/super(conceito)
• C1a = Sa/Sb (Pre-conf) e C2a = Sa/Sc (Post-Conf)
• MIN-CONF = min(pre-conf ou post-conf)
• Útil, pois se o min-conf é maior do que um limiar, então o k-gram será
mantido em relação ao k-1 gram.
• MAX-CONF = max(pre-conf ou post-conf)
• Útil quando um subconceito pode ser seguido de muitas possibilidade de
palavras ou frases (ex. “John” tem pre-conf e min-conf baixo, mas max-conf
alto com “Lennon”)
• REL-CONF: para a ser um conceito ele deve ser melhor do que qualquer k—1
gram que ele contém.
10. Algoritmos e Indicadores
• 3a Indicator: conter somente porções de sentença que tenham
um significado único ou ideia.
• “George Bush said yesterday” é um 4-gram que não é um conceito e
pode ser avaliado como sendo pelos indicadores anteriores.
1. Não pode começar ou terminar com conjunção, artigo ou pronome.
2. Começar e terminar com verbo
3. Não conter substantivos.
16. Conclusão
• O objetivo foi atendido.
• Entretanto, o algoritmo é sensível aos limiares. Sendo que eles foram
ajustados manualmente para obtenção dos resultados. (Como encontrar
os limiares?)