Análise Comparativa de
Ferramentas de Extração de
Metadados em Artigos Científicos
José Alberto Grossi Júnior
Maio/2015
Introdução
Introdução
• Necessidade de catalogação automatizada de
artigos científicos.
• Extração automática de informações, como tít...
Problema
• Ferramentas focadas em artigos de Ciência da
Computação.
• Layouts pré-definidos, como é o caso do IEEE.
• Pouco...
Layouts padrões dos artigos IEEE.
Objetivos
• Identificar as melhores ferramentas de extração de
metadados;
• Utilização de um corpus diversificado,
contempla...
Justificativa
• Permitir um conhecimento maior do
comportamento de cada ferramenta; seus pontos
fortes e fracos.
• Avaliar ...
Referencial Teórico
Metadados
• Definição de Metadado:
• [...] an element of metadata describes an
information resource, or helps provide acces...
Técnicas de
Extração de Metadados
Técnicas
• Support Vector Machines (SVM)
• Reconhecimento de padrões através de análises
matemáticas (análise espacial).
•...
Técnicas de Extração
• Word Clustering (Clusters de palavras)
• Identificação de padrões e comparação com
dicionários pré-d...
Ferramentas
Ferramenta Linguagens Técnicas Command Line
Cermine Java
SVM, CRF, Word
Clustering
Sim
TeamBeam Java
Maximun
Entropy, HMM
...
Ferramenta Linguagens Técnicas Command Line
Cermine Java
SVM, CRF, Word
Clustering
Sim
TeamBeam Java
Maximun
Entropy, HMM
...
Metodologia
Corpus
Área do Conhecimento Total de Artigos
Arquitetura e Urbanismo 7
Música 7
Ciência da Computação 8
Ciência da Informa...
Realização do
Experimento
Extração dos Metadados
• Extração individual de cada artigo, coletando
resultados para cada uma das ferramentas;
• Análise...
• Média ponderada com base nos resultados
obtidos para cada metadado, juntamente com seu
respectivo peso.
• Classificação:
...
Ambiente de Testes
Metadata Extraction Tool
Dados aleatórios. Ferramenta em desenvolvimento.
Extrações Realizadas
Resultados de Extração
Resultados Individuais por Ferramenta
Obrigado!
Apresentação da Qualificação - Mestrado UFMG Ciência da Informação
Apresentação da Qualificação - Mestrado UFMG Ciência da Informação
Próximos SlideShares
Carregando em…5
×

Apresentação da Qualificação - Mestrado UFMG Ciência da Informação

320 visualizações

Publicada em

Apresentação da Qualificação - Mestrado UFMG Ciência da Informação

12/05/2015

Publicada em: Tecnologia
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
320
No SlideShare
0
A partir de incorporações
0
Número de incorporações
2
Ações
Compartilhamentos
0
Downloads
6
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Apresentação da Qualificação - Mestrado UFMG Ciência da Informação

  1. 1. Análise Comparativa de Ferramentas de Extração de Metadados em Artigos Científicos José Alberto Grossi Júnior Maio/2015
  2. 2. Introdução
  3. 3. Introdução • Necessidade de catalogação automatizada de artigos científicos. • Extração automática de informações, como títulos, autores e referências. • Representação na forma de metadados. • Ferramentas para extração de metadados.
  4. 4. Problema • Ferramentas focadas em artigos de Ciência da Computação. • Layouts pré-definidos, como é o caso do IEEE. • Poucos estudos do comportamento destas ferramentas em outras áreas do conhecimento.
  5. 5. Layouts padrões dos artigos IEEE.
  6. 6. Objetivos • Identificar as melhores ferramentas de extração de metadados; • Utilização de um corpus diversificado, contemplando diversas áreas do conhecimento (variação dos layouts). • Identificação do comportamento de ferramentas: • para cada área do conhecimento analisada; • para cada metadado.
  7. 7. Justificativa • Permitir um conhecimento maior do comportamento de cada ferramenta; seus pontos fortes e fracos. • Avaliar a diferenciação dos padrões para cada área do conhecimento e suas características.
  8. 8. Referencial Teórico
  9. 9. Metadados • Definição de Metadado: • [...] an element of metadata describes an information resource, or helps provide access to an information resource.” • Padrão Dublin Core • Definição de 15 elementos padronizados.
  10. 10. Técnicas de Extração de Metadados
  11. 11. Técnicas • Support Vector Machines (SVM) • Reconhecimento de padrões através de análises matemáticas (análise espacial). • Hidden Markov Models (HMM) • Divisão do processamento em estados e símbolos durante um dado período de tempo. • Observação e aprendizado.
  12. 12. Técnicas de Extração • Word Clustering (Clusters de palavras) • Identificação de padrões e comparação com dicionários pré-determinados. • Conditional Random Fields (CRFs) • Construção de modelos probabilísticos; • Evolução do HMM (não vicioso).
  13. 13. Ferramentas
  14. 14. Ferramenta Linguagens Técnicas Command Line Cermine Java SVM, CRF, Word Clustering Sim TeamBeam Java Maximun Entropy, HMM Não Mendeley Qt SVM, Word Clustering Não CiteULike Perl, Python, Ruby, Tcl, Java Expressões Regulares Não CiteSeer Python, Perl, Java SVM, CRF (ParsCit), Word Clustering Sim ParsCit Perl, Ruby CRF Sim CrossRef Ruby, Python Expressões Regulares + Posicionamento Visual Sim
  15. 15. Ferramenta Linguagens Técnicas Command Line Cermine Java SVM, CRF, Word Clustering Sim TeamBeam Java Maximun Entropy, HMM Não Mendeley Qt SVM, Word Clustering Não CiteULike Perl, Python, Ruby, Tcl, Java Expressões Regulares Não CiteSeer Python, Perl, Java SVM, CRF (ParsCit), Word Clustering Sim ParsCit Perl, Ruby CRF Sim CrossRef Ruby, Python Expressões Regulares + Posicionamento Visual Sim
  16. 16. Metodologia
  17. 17. Corpus Área do Conhecimento Total de Artigos Arquitetura e Urbanismo 7 Música 7 Ciência da Computação 8 Ciência da Informação 9 Ciências Biológicas 7 Direito 7 Engenharia Civil 8 Letras 7 Matemática Computacional 7 Medicina 9 Odontologia 8 Psicologia 9 Sociologia 7 Total 100
  18. 18. Realização do Experimento
  19. 19. Extração dos Metadados • Extração individual de cada artigo, coletando resultados para cada uma das ferramentas; • Análise dos resultados de cada ferramenta para cada área do conhecimento analisada, com base em médias aritméticas dos resultados individuais; • Análise dos resultados de cada ferramenta para cada metadado, tomando um resultado geral para todas as áreas do conhecimento; • Cálculo do Índice de Confiabilidade.
  20. 20. • Média ponderada com base nos resultados obtidos para cada metadado, juntamente com seu respectivo peso. • Classificação: • A partir de 90: Precisa • Entre 80 e 90: Satisfatória • Abaixo de 80: Insatisfatória Índice de Confiabilidade Metadado Peso Título 5 Autores 4 E-mails 1 Resumo 3 Referências 4
  21. 21. Ambiente de Testes Metadata Extraction Tool Dados aleatórios. Ferramenta em desenvolvimento.
  22. 22. Extrações Realizadas
  23. 23. Resultados de Extração
  24. 24. Resultados Individuais por Ferramenta
  25. 25. Obrigado!

×