SlideShare uma empresa Scribd logo
1 de 17
Hugo Santos
GERÊNCIA DE DADOS DA WEB
1o. SEMESTRE DE 2014
Towards The Web Of Concepts: Extracting Concepts from
Large Datasets
Aditya Parameswaran
Stanford University
Anand Rajaraman
Kosmix Corporation
Hector GarciaMolina
Stanford University
VLDB ‘10, September 1317, 2010, Singapore
Contextualização
• Laender, A.H.F.; Ribeiro-Neto, B.A.; Silva, A.S.; Teixeira, J.S. A Brief Survey of Web
Data Extraction Tools. SIGMOD Record, 31(2): 84-93, 2002.
Contextualização
• Chang, C.-H.; Kayed, M.; Girgis, M. R.; Shaalan, K. F. A Survey of Web Information
Extraction Systems. IEEE Trans. Knowl. Data Eng., 18(10): 1411-1428, 2006.
?
Introdução
• A descoberta e busca por informação na web envolve uma rica
compreensão das intenções dos usuários.
• Para prover uma experiência rica para os usuários as máquinas de busca
devem organizar as infomações em torno de uma rede de conceitos (Web
of Concepts).
• Conceitos são sequências de palavras que representam ideias ou entidades
reais ou imaginárias que são do nosso interesse
• (Usuários que estão buscando por informação).
• Uma nova técnica de extração de conceitos a partir de um grande conjunto
de dados em que a frequência/popularidade é utilizada par
Introdução
• Uma nova técnica de extração de conceitos a partir de um grande conjunto
de dados em que a frequência/popularidade dos termos é utilizada para
distinguir se a sequência de palavras formam um conceito relativo à
sequência de palavras que ele contem (subconceito) ou está contido
(superconceito).
• Por exemplo:
• Subconceito:
• “Rage against the” – descartado
• “Against the Machine” – descartado
• Superconceito:
• “Rage against the machine band” - descartado
• “Rage against the machine music” - descartado
• Conceito
• Rage Against The Machine (Conceito)
Contribuição
• Formulação do problema de extração de conceitos a partir de grandes
bases de dados;
• Desenho de uma nova técnica de extração de conceito;
• Avaliação da nova técnica em relação às que utilizam reconhecimento de
termos (term recognition);
• Estudo experimental da nova técnica variando parâmetros em função de
precisão e revocação.
Definição de um Conceito
• K-gram é uma sequencia ordenada de k palavras.
• “Mary had a little lamb”
• 3 x 3-grams: “Mary had a”, “had a little”, “a little lamb”
• 1 x 5-grams: toda a sequencia.
• Para a avaliação do método são considerados:
• Todo título de artigo da Wikipedia são conceitos.
• Avaliação de pessoas.
• A propriedade de popularidade foca na extração de conceitos populares, excluindo conceitos que
interessam a pequenas parcelas ou grupos de pessoas.
Propriedade Empírica
• Proposição:
• “Se um k-gram a1a2…ak(k >2) é um conceito, então não é verdade que ambos
k-1grams são conceitos: a1a2…ak-1 e a2a3…ak. Se um 2-gram a1a2 é um
conceito, então pelo menos um a1 ou a2 são conceitos.”
• “Who Framed Roger Rabbit” é um conceito e contém:
• “Who Framed Roger” e “Framed Roger Rabbit” não são conceitos.
• “Manhattan Experimental Theater” contém:
• “Manhattan Experimental” é um conceito. Enquanto “Experimental
Theater” não é um conceito.
Algoritmos e Indicadores
• Dado um k-gram ele deve possuir 3 indicadores básicos:
• 1a Indicador: Frequência (Sa)
• A frequencia deve ser alta.
• 2a Indicador: Melhor que sub/super(conceito)
• C1a = Sa/Sb (Pre-conf) e C2a = Sa/Sc (Post-Conf)
• MIN-CONF = min(pre-conf ou post-conf)
• Útil, pois se o min-conf é maior do que um limiar, então o k-gram será
mantido em relação ao k-1 gram.
• MAX-CONF = max(pre-conf ou post-conf)
• Útil quando um subconceito pode ser seguido de muitas possibilidade de
palavras ou frases (ex. “John” tem pre-conf e min-conf baixo, mas max-conf
alto com “Lennon”)
• REL-CONF: para a ser um conceito ele deve ser melhor do que qualquer k—1
gram que ele contém.
Algoritmos e Indicadores
• 3a Indicator: conter somente porções de sentença que tenham
um significado único ou ideia.
• “George Bush said yesterday” é um 4-gram que não é um conceito e
pode ser avaliado como sendo pelos indicadores anteriores.
1. Não pode começar ou terminar com conjunção, artigo ou pronome.
2. Começar e terminar com verbo
3. Não conter substantivos.
Algoritmos e Indicadores
Análise de Resultados
• Base de buscas da AOL.
Análise de Resultados
Análise de Resultados: Parâmetros
Conclusão
• O objetivo foi atendido.
• Entretanto, o algoritmo é sensível aos limiares. Sendo que eles foram
ajustados manualmente para obtenção dos resultados. (Como encontrar
os limiares?)
Dúvidas

Mais conteúdo relacionado

Semelhante a Web of Concepts Extraction

Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...Christiano Avila
 
Meetup Globo - Big Data | Um sistema de recomendação a partir de um grande gr...
Meetup Globo - Big Data | Um sistema de recomendação a partir de um grande gr...Meetup Globo - Big Data | Um sistema de recomendação a partir de um grande gr...
Meetup Globo - Big Data | Um sistema de recomendação a partir de um grande gr...tecnologiaredeglobo
 
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...Affinitas GmbH
 
Minicurso de mineração de dados
Minicurso de mineração de dadosMinicurso de mineração de dados
Minicurso de mineração de dadosRenato Fabbri
 
Artigo - PROJETO DE UM HARDWARE ACELERADOR DO ALGORITMO DE DISTÂNCIA EUCLIDIA...
Artigo - PROJETO DE UM HARDWARE ACELERADOR DO ALGORITMO DE DISTÂNCIA EUCLIDIA...Artigo - PROJETO DE UM HARDWARE ACELERADOR DO ALGORITMO DE DISTÂNCIA EUCLIDIA...
Artigo - PROJETO DE UM HARDWARE ACELERADOR DO ALGORITMO DE DISTÂNCIA EUCLIDIA...GiovanniGuimares2
 
Introdução aos sistemas distribuídos on-line para processamento de fluxos de ...
Introdução aos sistemas distribuídos on-line para processamento de fluxos de ...Introdução aos sistemas distribuídos on-line para processamento de fluxos de ...
Introdução aos sistemas distribuídos on-line para processamento de fluxos de ...André Leon S. Gradvohl
 
Representação do conhecimento (rc)
Representação do conhecimento (rc)Representação do conhecimento (rc)
Representação do conhecimento (rc)iaudesc
 
Machine learning java ce conference 2012 - fortaleza ce
Machine learning java ce conference 2012 - fortaleza ceMachine learning java ce conference 2012 - fortaleza ce
Machine learning java ce conference 2012 - fortaleza ceLuca Bastos
 
Cache, Concorrência e Sincronização.
Cache, Concorrência e Sincronização.Cache, Concorrência e Sincronização.
Cache, Concorrência e Sincronização.Thiago Rondon
 
Sistemas de Recomendação - O que são? Como funcionam? Do que se alimentam?
Sistemas de Recomendação - O que são? Como funcionam? Do que se alimentam?Sistemas de Recomendação - O que são? Como funcionam? Do que se alimentam?
Sistemas de Recomendação - O que são? Como funcionam? Do que se alimentam?Marlesson Santana
 
Aplicações de Inteligência Artificial em Rádios Cognitivos
Aplicações de Inteligência Artificial em Rádios CognitivosAplicações de Inteligência Artificial em Rádios Cognitivos
Aplicações de Inteligência Artificial em Rádios CognitivosRamon Mayor Martins
 
Datasnap avançado - Respostas para um sistema robusto - Embarcadero Conferenc...
Datasnap avançado - Respostas para um sistema robusto - Embarcadero Conferenc...Datasnap avançado - Respostas para um sistema robusto - Embarcadero Conferenc...
Datasnap avançado - Respostas para um sistema robusto - Embarcadero Conferenc...Kelver Merlotti
 
Arquitetura de Computadores - Lecom - UFMG
Arquitetura de Computadores - Lecom - UFMGArquitetura de Computadores - Lecom - UFMG
Arquitetura de Computadores - Lecom - UFMGdjonatascostsa
 
ASP.Net Performance – A pragmatic approach - Luis Paulino
ASP.Net Performance – A pragmatic approach - Luis PaulinoASP.Net Performance – A pragmatic approach - Luis Paulino
ASP.Net Performance – A pragmatic approach - Luis PaulinoComunidade NetPonto
 

Semelhante a Web of Concepts Extraction (20)

Web Data Mining com R
Web Data Mining com RWeb Data Mining com R
Web Data Mining com R
 
Apresentacao
ApresentacaoApresentacao
Apresentacao
 
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...
 
Meetup Globo - Big Data | Um sistema de recomendação a partir de um grande gr...
Meetup Globo - Big Data | Um sistema de recomendação a partir de um grande gr...Meetup Globo - Big Data | Um sistema de recomendação a partir de um grande gr...
Meetup Globo - Big Data | Um sistema de recomendação a partir de um grande gr...
 
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
 
Minicurso de mineração de dados
Minicurso de mineração de dadosMinicurso de mineração de dados
Minicurso de mineração de dados
 
Artigo - PROJETO DE UM HARDWARE ACELERADOR DO ALGORITMO DE DISTÂNCIA EUCLIDIA...
Artigo - PROJETO DE UM HARDWARE ACELERADOR DO ALGORITMO DE DISTÂNCIA EUCLIDIA...Artigo - PROJETO DE UM HARDWARE ACELERADOR DO ALGORITMO DE DISTÂNCIA EUCLIDIA...
Artigo - PROJETO DE UM HARDWARE ACELERADOR DO ALGORITMO DE DISTÂNCIA EUCLIDIA...
 
Introdução aos sistemas distribuídos on-line para processamento de fluxos de ...
Introdução aos sistemas distribuídos on-line para processamento de fluxos de ...Introdução aos sistemas distribuídos on-line para processamento de fluxos de ...
Introdução aos sistemas distribuídos on-line para processamento de fluxos de ...
 
AulaAula1(introducao)
AulaAula1(introducao)AulaAula1(introducao)
AulaAula1(introducao)
 
Big data
Big dataBig data
Big data
 
Representação do conhecimento (rc)
Representação do conhecimento (rc)Representação do conhecimento (rc)
Representação do conhecimento (rc)
 
Machine learning java ce conference 2012 - fortaleza ce
Machine learning java ce conference 2012 - fortaleza ceMachine learning java ce conference 2012 - fortaleza ce
Machine learning java ce conference 2012 - fortaleza ce
 
Cache, Concorrência e Sincronização.
Cache, Concorrência e Sincronização.Cache, Concorrência e Sincronização.
Cache, Concorrência e Sincronização.
 
Planejamento rede
Planejamento rede Planejamento rede
Planejamento rede
 
PO - aula 1.pptx
PO - aula 1.pptxPO - aula 1.pptx
PO - aula 1.pptx
 
Sistemas de Recomendação - O que são? Como funcionam? Do que se alimentam?
Sistemas de Recomendação - O que são? Como funcionam? Do que se alimentam?Sistemas de Recomendação - O que são? Como funcionam? Do que se alimentam?
Sistemas de Recomendação - O que são? Como funcionam? Do que se alimentam?
 
Aplicações de Inteligência Artificial em Rádios Cognitivos
Aplicações de Inteligência Artificial em Rádios CognitivosAplicações de Inteligência Artificial em Rádios Cognitivos
Aplicações de Inteligência Artificial em Rádios Cognitivos
 
Datasnap avançado - Respostas para um sistema robusto - Embarcadero Conferenc...
Datasnap avançado - Respostas para um sistema robusto - Embarcadero Conferenc...Datasnap avançado - Respostas para um sistema robusto - Embarcadero Conferenc...
Datasnap avançado - Respostas para um sistema robusto - Embarcadero Conferenc...
 
Arquitetura de Computadores - Lecom - UFMG
Arquitetura de Computadores - Lecom - UFMGArquitetura de Computadores - Lecom - UFMG
Arquitetura de Computadores - Lecom - UFMG
 
ASP.Net Performance – A pragmatic approach - Luis Paulino
ASP.Net Performance – A pragmatic approach - Luis PaulinoASP.Net Performance – A pragmatic approach - Luis Paulino
ASP.Net Performance – A pragmatic approach - Luis Paulino
 

Web of Concepts Extraction

  • 1. Hugo Santos GERÊNCIA DE DADOS DA WEB 1o. SEMESTRE DE 2014 Towards The Web Of Concepts: Extracting Concepts from Large Datasets Aditya Parameswaran Stanford University Anand Rajaraman Kosmix Corporation Hector GarciaMolina Stanford University VLDB ‘10, September 1317, 2010, Singapore
  • 2. Contextualização • Laender, A.H.F.; Ribeiro-Neto, B.A.; Silva, A.S.; Teixeira, J.S. A Brief Survey of Web Data Extraction Tools. SIGMOD Record, 31(2): 84-93, 2002.
  • 3. Contextualização • Chang, C.-H.; Kayed, M.; Girgis, M. R.; Shaalan, K. F. A Survey of Web Information Extraction Systems. IEEE Trans. Knowl. Data Eng., 18(10): 1411-1428, 2006. ?
  • 4. Introdução • A descoberta e busca por informação na web envolve uma rica compreensão das intenções dos usuários. • Para prover uma experiência rica para os usuários as máquinas de busca devem organizar as infomações em torno de uma rede de conceitos (Web of Concepts). • Conceitos são sequências de palavras que representam ideias ou entidades reais ou imaginárias que são do nosso interesse • (Usuários que estão buscando por informação). • Uma nova técnica de extração de conceitos a partir de um grande conjunto de dados em que a frequência/popularidade é utilizada par
  • 5. Introdução • Uma nova técnica de extração de conceitos a partir de um grande conjunto de dados em que a frequência/popularidade dos termos é utilizada para distinguir se a sequência de palavras formam um conceito relativo à sequência de palavras que ele contem (subconceito) ou está contido (superconceito). • Por exemplo: • Subconceito: • “Rage against the” – descartado • “Against the Machine” – descartado • Superconceito: • “Rage against the machine band” - descartado • “Rage against the machine music” - descartado • Conceito • Rage Against The Machine (Conceito)
  • 6. Contribuição • Formulação do problema de extração de conceitos a partir de grandes bases de dados; • Desenho de uma nova técnica de extração de conceito; • Avaliação da nova técnica em relação às que utilizam reconhecimento de termos (term recognition); • Estudo experimental da nova técnica variando parâmetros em função de precisão e revocação.
  • 7. Definição de um Conceito • K-gram é uma sequencia ordenada de k palavras. • “Mary had a little lamb” • 3 x 3-grams: “Mary had a”, “had a little”, “a little lamb” • 1 x 5-grams: toda a sequencia. • Para a avaliação do método são considerados: • Todo título de artigo da Wikipedia são conceitos. • Avaliação de pessoas. • A propriedade de popularidade foca na extração de conceitos populares, excluindo conceitos que interessam a pequenas parcelas ou grupos de pessoas.
  • 8. Propriedade Empírica • Proposição: • “Se um k-gram a1a2…ak(k >2) é um conceito, então não é verdade que ambos k-1grams são conceitos: a1a2…ak-1 e a2a3…ak. Se um 2-gram a1a2 é um conceito, então pelo menos um a1 ou a2 são conceitos.” • “Who Framed Roger Rabbit” é um conceito e contém: • “Who Framed Roger” e “Framed Roger Rabbit” não são conceitos. • “Manhattan Experimental Theater” contém: • “Manhattan Experimental” é um conceito. Enquanto “Experimental Theater” não é um conceito.
  • 9. Algoritmos e Indicadores • Dado um k-gram ele deve possuir 3 indicadores básicos: • 1a Indicador: Frequência (Sa) • A frequencia deve ser alta. • 2a Indicador: Melhor que sub/super(conceito) • C1a = Sa/Sb (Pre-conf) e C2a = Sa/Sc (Post-Conf) • MIN-CONF = min(pre-conf ou post-conf) • Útil, pois se o min-conf é maior do que um limiar, então o k-gram será mantido em relação ao k-1 gram. • MAX-CONF = max(pre-conf ou post-conf) • Útil quando um subconceito pode ser seguido de muitas possibilidade de palavras ou frases (ex. “John” tem pre-conf e min-conf baixo, mas max-conf alto com “Lennon”) • REL-CONF: para a ser um conceito ele deve ser melhor do que qualquer k—1 gram que ele contém.
  • 10. Algoritmos e Indicadores • 3a Indicator: conter somente porções de sentença que tenham um significado único ou ideia. • “George Bush said yesterday” é um 4-gram que não é um conceito e pode ser avaliado como sendo pelos indicadores anteriores. 1. Não pode começar ou terminar com conjunção, artigo ou pronome. 2. Começar e terminar com verbo 3. Não conter substantivos.
  • 12.
  • 13. Análise de Resultados • Base de buscas da AOL.
  • 15. Análise de Resultados: Parâmetros
  • 16. Conclusão • O objetivo foi atendido. • Entretanto, o algoritmo é sensível aos limiares. Sendo que eles foram ajustados manualmente para obtenção dos resultados. (Como encontrar os limiares?)