MEDIDAS DE SIMILARIDADEEM DOCUMENTOSELETRONICOSProf. Luiz Cláudio Gomes MaiaProf. Renato Rocha SouzaEscola de Ciência da I...
conteúdo Tecnologia e aplicação na CI Medidas de Similaridade Análise de texto Extração automática de descritores Ext...
medidas de similaridadeAplicáveis a: Textos Imagens e fotos Rostos Sons Identificação de música
outras aplicaçõesMedidas de similaridade: análise de ligações Sites de compras TV Digital Redes Sociais Last.fm,Orkut,...
clustering Clustering corresponde as técnicas quepermitem subdividir um conjunto deobjetos em grupos. O objetivo é fazer ...
uso em repositóriosGRUPO AGRUPO B
objetivoComparação similaridade de documentoseletrônicos: Análise dados (texto) Análise dos metadados (descritores)
 A classificação automática toma como baseas propriedades do objeto que se pretendeclassificar e através delas define a(s...
análise de texto Bag of words Corpus Criação dos dicionários Stopwords MedidasTF, IDF,TF-IDF Coseno, Distância Eucli...
análise de textoFonte: JANSSENS, 2007
coseno
dificuldadesFonte: JANSSENS, 2007
dificuldades Polissemia: a palavra pode ter váriossignificados. Exemplo: chave (solução de umproblema; ferramenta para ab...
sintagmas nominais "conjunto de elementos que constituem umaunidade significativa dentro da oração e quemantêm entre si r...
De SN para descritoresProposto: 1a - organização 1b - insumos básicos 2 – camada de ozônio 3 - âmbito da representação...
descritoresTexto: Quem mexeu no meu queijo?Spencer Johnson Termos: que, queijo, não, para, Haw Termos sem Stopwords Qu...
extração de SN “O processo de reconhecimento, extração eindexação não automatizada, além de ser inviáveleconomicamente em...
extração de SN Visual Interactive Syntax Learning (VISL),da Universidade de Aarhus na Dinamarca.Parser PALAVRASDificuldad...
extração de SN Outros softwares CorpusTreinamento Conhecimento de linguagens próprias deprogramação Outras línguas
ED-CER“o_AR trabalho_SU descreve_VB as_ARGramáticas_SU Síncronas_AJde_PR Adjunção_SU de_PR Árvores_SUcomo_PR formalismo_SU...
ED-CERFonte: Miorelli, 2001
ogmaConstrução de um dicionário 475 palavras da gramática 41978 nomes e adjetivos 5000 verbos verbos conjugados 292.72...
ogma
extração de SNO novo cálculo das aposentadorias resulta em valores menores do que osatuais para quem perde o benefício com...
corpus 1 - Imagem, fotografia, imagem 2 - Uma proposta de modelo baseado naWeb 2.0para... 3 - Arquitetura da Informação...
Imagem, fotografia, imagemPalavras-chave: Imagem. Fotografia. Informação e tecnologia e informação. Intersemioses.
Imagem, fotografia, imagem
Uma proposta de modelo baseado naWeb 2.0Palavras-chave: Internet. Tecnologia da Informação. Web 2.0. Biblioteca 2.0.Biblio...
similaridade com SN
similaridade - palavras
principais conclusões O uso de SN aprimora as medidas desimilaridade. Diminuição de falsos positivos. Melhorando ahomoge...
referências JANSSENS, F.. Clustering of scientific fields byintegrating text Mining and bibliometrics,Katholieke Universi...
referências SANTOS SILVA, F.. Personalização de Conteúdo naTVDI através de um Sistema de RecomendaçãoPersonalizada de Pro...
Obrigado!Contato:luizmaia@luizmaia.com.brwww.luizmaia.com.br
Próximos SlideShares
Carregando em…5
×

Enancib 2008 - MEDIDAS DE SIMILARIDADE EM DOCUMENTOS ELETRONICOS

291 visualizações

Publicada em

MEDIDAS DE SIMILARIDADE EM DOCUMENTOS ELETRONICOS
http://www.luizmaia.com.br

Publicada em: Tecnologia
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Enancib 2008 - MEDIDAS DE SIMILARIDADE EM DOCUMENTOS ELETRONICOS

  1. 1. MEDIDAS DE SIMILARIDADEEM DOCUMENTOSELETRONICOSProf. Luiz Cláudio Gomes MaiaProf. Renato Rocha SouzaEscola de Ciência da Informação, UFMG
  2. 2. conteúdo Tecnologia e aplicação na CI Medidas de Similaridade Análise de texto Extração automática de descritores Extração dos SN Classificação dos SN extraídos Uso de SNs para indicar similaridade
  3. 3. medidas de similaridadeAplicáveis a: Textos Imagens e fotos Rostos Sons Identificação de música
  4. 4. outras aplicaçõesMedidas de similaridade: análise de ligações Sites de compras TV Digital Redes Sociais Last.fm,Orkut, etc... Google e PageRank Análise de citaçõesFonte: JANSSENS, 2007; SANTOS SILVA, 2005Fabio Santos Silva emprojeto denominadoSistema deRecomendaçãoPersonalizada deProgramas deTV(SRPTV).Rocchio - 1971kNN -Yang em 1994
  5. 5. clustering Clustering corresponde as técnicas quepermitem subdividir um conjunto deobjetos em grupos. O objetivo é fazer quecada grupo (ou cluster) seja o maishomogêneo possível levando emconsideração que os objetos do grupotenham propriedades similares e que osobjetos nos outros grupos sejam diferentes.Fonte: JANSSENS, 2007
  6. 6. uso em repositóriosGRUPO AGRUPO B
  7. 7. objetivoComparação similaridade de documentoseletrônicos: Análise dados (texto) Análise dos metadados (descritores)
  8. 8.  A classificação automática toma como baseas propriedades do objeto que se pretendeclassificar e através delas define a(s)classes(s) a qual pertence. Ao classificar que um documento é similar aoutro é necessário realizar um processo deassociação entre estes documentos. Umdocumento com metadados (incluindodescritores) torna o processo de classificaçãoautomática mais eficaz.Fonte: SVENONIOUS, 1985
  9. 9. análise de texto Bag of words Corpus Criação dos dicionários Stopwords MedidasTF, IDF,TF-IDF Coseno, Distância Euclidiana SupportVector Machines (SVM)
  10. 10. análise de textoFonte: JANSSENS, 2007
  11. 11. coseno
  12. 12. dificuldadesFonte: JANSSENS, 2007
  13. 13. dificuldades Polissemia: a palavra pode ter váriossignificados. Exemplo: chave (solução de umproblema; ferramenta para abertura de portas; etambém ferramenta para apertar parafusos); Sinonímia: duas palavras podem designar omesmo significado. Exemplo: abóbora ejerimum; Duas ou mais palavras podem combinar-se emordem diferente designando idéiascompletamente diversas. Exemplo: crimes,juvenis, vítimas (vítimas de crimes juvenis;vítimas juvenis de crimes).Fonte: Guern, 2001; Kuramoto, 2002
  14. 14. sintagmas nominais "conjunto de elementos que constituem umaunidade significativa dentro da oração e quemantêm entre si relações de dependência e deordem. Organizam-se em torno de umelemento fundamental, denominado núcleo,que pode, por si só, constituir o sintagma." “é a menor parte do discurso portadora deinformação”.Fonte: KOCH & SILVA, 1986; KURAMOTO, 1996
  15. 15. De SN para descritoresProposto: 1a - organização 1b - insumos básicos 2 – camada de ozônio 3 - âmbito da representação das atividadeseconômicas1a 0,21b 0,82 1,13 1,44 1,25 0,8Fonte: Souza, 2005
  16. 16. descritoresTexto: Quem mexeu no meu queijo?Spencer Johnson Termos: que, queijo, não, para, Haw Termos sem Stopwords Queijo, Haw, quando, estava, novo Sintagmas Nominais Queijo, Haw, a história, o labirinto, mudança Sintagmas Nominais pontuados Queijo, Haw, a história do queijo, o labirinto, mudança
  17. 17. extração de SN “O processo de reconhecimento, extração eindexação não automatizada, além de ser inviáveleconomicamente em se tratando de grandesvolumes de documentos, pode prejudicar auniformidade no processo de reconhecimento,extração e indexação dos sintagmas nominais.” “A inexistência dessas ferramentas impede umaavaliação mais consistente envolvendo amostrasde dados com maior volume de documentos. “Fonte: Kuramoto, 2002
  18. 18. extração de SN Visual Interactive Syntax Learning (VISL),da Universidade de Aarhus na Dinamarca.Parser PALAVRASDificuldades:- via web- pago
  19. 19. extração de SN Outros softwares CorpusTreinamento Conhecimento de linguagens próprias deprogramação Outras línguas
  20. 20. ED-CER“o_AR trabalho_SU descreve_VB as_ARGramáticas_SU Síncronas_AJde_PR Adjunção_SU de_PR Árvores_SUcomo_PR formalismo_SU para_PRprojeto_SU de_PR um_AR módulo_SU (...)._PN”Fonte: Miorelli, 2001
  21. 21. ED-CERFonte: Miorelli, 2001
  22. 22. ogmaConstrução de um dicionário 475 palavras da gramática 41978 nomes e adjetivos 5000 verbos verbos conjugados 292.720 Diversas regras e tratamentos realizados nocódigo.
  23. 23. ogma
  24. 24. extração de SNO novo cálculo das aposentadorias resulta em valores menores do que osatuais para quem perde o benefício com menos tempo de contribuição eidade.SN Extraídos OGMAO novo cálculo de as aposentadorias; valores menores; o benefício commenos tempo de contribuição e idadeSN Extraídos no método ED-CERo novo cálculo de as aposentadorias; valores menores-do-que os atuais; obenefício com menos tempo de contribuição e idadeSN Extraídos no trabalho deVISL% o novo cálculo de as aposentadorias; % valores menores do que os atuais% o benefício;% menos tempo de contribuição e idade
  25. 25. corpus 1 - Imagem, fotografia, imagem 2 - Uma proposta de modelo baseado naWeb 2.0para... 3 - Arquitetura da Informação para AmbientesInform... 4 - X-Libras - Um Ambiente Informacional para aLín... 5 - Avaliação da usabilidade de ambientes... 6 - Análise da usabilidade de interface dereposit...
  26. 26. Imagem, fotografia, imagemPalavras-chave: Imagem. Fotografia. Informação e tecnologia e informação. Intersemioses.
  27. 27. Imagem, fotografia, imagem
  28. 28. Uma proposta de modelo baseado naWeb 2.0Palavras-chave: Internet. Tecnologia da Informação. Web 2.0. Biblioteca 2.0.Bibliotecas das UniversidadesFederais.20 x 80 web
  29. 29. similaridade com SN
  30. 30. similaridade - palavras
  31. 31. principais conclusões O uso de SN aprimora as medidas desimilaridade. Diminuição de falsos positivos. Melhorando ahomogeneidade dos itens do cluster.
  32. 32. referências JANSSENS, F.. Clustering of scientific fields byintegrating text Mining and bibliometrics,Katholieke Universiteit Leuven: FaculteitIngenieurswetenschappen. Mei, 2007. KOCH, I.V.; SILVA, M.C.P.S.. Lingüística aplicadaao português: sintaxe. São Paulo, Cortez, 1985. KURAMOTO, H.. Sintagmas Nominais: uma novaproposta para a Recuperação da Informação.DataGramaZero, v. 3, n. 1, fev. 2002.
  33. 33. referências SANTOS SILVA, F.. Personalização de Conteúdo naTVDI através de um Sistema de RecomendaçãoPersonalizada de Programas deTV (SRPTV).Anais...III Fórum de Oportunidades emTelevisão DigitalInterativa, Poços de Caldas, 2005. SOUZA, R.R.. Uma proposta de metodologia paraescolha automática de descritores utilizandosintagmas nominais.Tese de Doutorado.Orientadora Profª. Lidia Alvarenga. ECI: UFMG,2006. SVENONIOUS, E.. Classification theory. March,1985. 19p
  34. 34. Obrigado!Contato:luizmaia@luizmaia.com.brwww.luizmaia.com.br

×