O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.
Ciência de Dados aplicada ao Arca
Desenvolvimento e disponibilização de ferramentas
para Recuperação de Informação no Repo...
Utilizar Mineração de Textos e Aprendizagem por Máquina
(Machine Learning) com o objetivo de aprimorar a Recuperação da
In...
1) Volume crescente de objetos digitais;
2) A classificação de conteúdos não é uma ciência exata;
3) Caráter dinâmico liga...
Por que usar Machine Learning?
1. Extração automática de descritores;
2. Cluster de documentos semelhantes;
3. Identificaç...
Objeto: Teses, dissertações e artigos depositados no ARCA
Conjunto de publicações não representa real produção acadêmica d...
Metodologia proposta para a extração de descritores
1. Obtenção do Corpus
2. Pré-processamento dos documentos
a.Extração d...
Alguns resultados
Melhora na revocação
Alguns resultados
Análise temporal da utilização de termos (PSF x ESF)
ESF
PSF
Explorando a aplicação na Plataforma de Ciência de Dados
aplicada à Saúde (PCDaS)
Explorando a aplicação na Plataforma de Ciência de Dados
aplicada à Saúde (PCDaS)
Explorando a aplicação na Plataforma de Ciência de Dados
aplicada à Saúde (PCDaS)
Explorando a aplicação na Plataforma de Ciência de Dados
aplicada à Saúde (PCDaS)
Explorando a aplicação na Plataforma de Ciência de Dados
aplicada à Saúde (PCDaS)
Explorando a aplicação na Plataforma de Ciência de Dados
aplicada à Saúde (PCDaS)
Explorando a aplicação na Plataforma de Ciência de Dados
aplicada à Saúde (PCDaS)
Aplicações de Mineração de textos – FGV/CPDOC
Acervo do ex-ministro das Relações
Exteriores do Brasil Antônio Azeredo da
S...
1) Nada disso é possível sem Acesso Aberto;
2) Garantir a legibilidade por máquina;
3) Empoderamento do usuário;
4) Interd...
Plataforma de Ciência de Dados aplicada à Saúde (bigdata.saude@icict.fiocruz.br)
Jefferson Lima (jefferson.lima@icict.fioc...
Próximos SlideShares
Carregando em…5
×

Ciência de dados aplicada ao Arca: desenvolvimento e disponibilização de ferramentas para recuperação de informação no Repositório Institucional da Fundação Oswaldo Cruz - CONFOA 2017

112 visualizações

Publicada em

Ciência de dados aplicada ao Arca: desenvolvimento e disponibilização de ferramentas para recuperação de informação no Repositório Institucional da Fundação Oswaldo Cruz
Marcel Pedroso, Jefferson Lima, Vinicius Belchior Assef Neto

Publicada em: Ciências
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Ciência de dados aplicada ao Arca: desenvolvimento e disponibilização de ferramentas para recuperação de informação no Repositório Institucional da Fundação Oswaldo Cruz - CONFOA 2017

  1. 1. Ciência de Dados aplicada ao Arca Desenvolvimento e disponibilização de ferramentas para Recuperação de Informação no Repositório Institucional da Fundação Oswaldo Cruz Jefferson Lima Marcel Pedroso Vinicius Assef Neto Icict/Fiocruz
  2. 2. Utilizar Mineração de Textos e Aprendizagem por Máquina (Machine Learning) com o objetivo de aprimorar a Recuperação da Informação por meio da classificação automática de artigos, teses e dissertações depositados no Arca. Objetivo
  3. 3. 1) Volume crescente de objetos digitais; 2) A classificação de conteúdos não é uma ciência exata; 3) Caráter dinâmico ligado aos descritores; 4) Explorar novas possibilidades de Recuperação da Informação. Motivação
  4. 4. Por que usar Machine Learning? 1. Extração automática de descritores; 2. Cluster de documentos semelhantes; 3. Identificação das relações entre entidades como doenças e compostos químicos; 4. Georeferenciamento de publicações; 5. Identificação pesquisadores que analisam objetos semelhantes.
  5. 5. Objeto: Teses, dissertações e artigos depositados no ARCA Conjunto de publicações não representa real produção acadêmica da Fiocruz 4.707 obras analisadas
  6. 6. Metodologia proposta para a extração de descritores 1. Obtenção do Corpus 2. Pré-processamento dos documentos a.Extração de dados dos arquivos PDF b.Remoção de stopwords e de pontuação c.Uso de stemming d.Identificação de n-grams relevantes e.Identificação do idioma principal do texto (inglês, português ou espanhol) 3. Captura de dados do vocabulário Descritores em Ciências da Saúde (DeCS) 4. Cruzamento entre n-grams e o DeCS para a identificação de descritores para os documentos
  7. 7. Alguns resultados Melhora na revocação
  8. 8. Alguns resultados Análise temporal da utilização de termos (PSF x ESF) ESF PSF
  9. 9. Explorando a aplicação na Plataforma de Ciência de Dados aplicada à Saúde (PCDaS)
  10. 10. Explorando a aplicação na Plataforma de Ciência de Dados aplicada à Saúde (PCDaS)
  11. 11. Explorando a aplicação na Plataforma de Ciência de Dados aplicada à Saúde (PCDaS)
  12. 12. Explorando a aplicação na Plataforma de Ciência de Dados aplicada à Saúde (PCDaS)
  13. 13. Explorando a aplicação na Plataforma de Ciência de Dados aplicada à Saúde (PCDaS)
  14. 14. Explorando a aplicação na Plataforma de Ciência de Dados aplicada à Saúde (PCDaS)
  15. 15. Explorando a aplicação na Plataforma de Ciência de Dados aplicada à Saúde (PCDaS)
  16. 16. Aplicações de Mineração de textos – FGV/CPDOC Acervo do ex-ministro das Relações Exteriores do Brasil Antônio Azeredo da Silveira, que ocupou o cargo entre 1974 e 1979. 10.428 documentos com cerca de 67 mil páginas. “… manuscritos, documentos com gráficos, despachos em várias línguas” Fonte: https://oglobo.globo.com/sociedade/tecnologia/fgv-usa-inteligencia-artificial-para-agilizar-trabalho-de-historiadores-21872633
  17. 17. 1) Nada disso é possível sem Acesso Aberto; 2) Garantir a legibilidade por máquina; 3) Empoderamento do usuário; 4) Interdisciplinaridade. Considerações finais:
  18. 18. Plataforma de Ciência de Dados aplicada à Saúde (bigdata.saude@icict.fiocruz.br) Jefferson Lima (jefferson.lima@icict.fiocruz.br) Marcel Pedroso (marcel.pedroso@icict.fiocruz.br) Vinicius Assef Neto (vinicius.assef@icict.fiocruz.br)

×