O slideshow foi denunciado.
Seu SlideShare está sendo baixado. ×

Ciência de dados aplicada ao Arca: desenvolvimento e disponibilização de ferramentas para recuperação de informação no Repositório Institucional da Fundação Oswaldo Cruz - CONFOA 2017

Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Próximos SlideShares
A capsula digital_da_historia
A capsula digital_da_historia
Carregando em…3
×

Confira estes a seguir

1 de 18 Anúncio

Ciência de dados aplicada ao Arca: desenvolvimento e disponibilização de ferramentas para recuperação de informação no Repositório Institucional da Fundação Oswaldo Cruz - CONFOA 2017

Baixar para ler offline

Ciência de dados aplicada ao Arca: desenvolvimento e disponibilização de ferramentas para recuperação de informação no Repositório Institucional da Fundação Oswaldo Cruz
Marcel Pedroso, Jefferson Lima, Vinicius Belchior Assef Neto

Ciência de dados aplicada ao Arca: desenvolvimento e disponibilização de ferramentas para recuperação de informação no Repositório Institucional da Fundação Oswaldo Cruz
Marcel Pedroso, Jefferson Lima, Vinicius Belchior Assef Neto

Anúncio
Anúncio

Mais Conteúdo rRelacionado

Mais de Conferência Luso-Brasileira de Ciência Aberta (20)

Mais recentes (20)

Anúncio

Ciência de dados aplicada ao Arca: desenvolvimento e disponibilização de ferramentas para recuperação de informação no Repositório Institucional da Fundação Oswaldo Cruz - CONFOA 2017

  1. 1. Ciência de Dados aplicada ao Arca Desenvolvimento e disponibilização de ferramentas para Recuperação de Informação no Repositório Institucional da Fundação Oswaldo Cruz Jefferson Lima Marcel Pedroso Vinicius Assef Neto Icict/Fiocruz
  2. 2. Utilizar Mineração de Textos e Aprendizagem por Máquina (Machine Learning) com o objetivo de aprimorar a Recuperação da Informação por meio da classificação automática de artigos, teses e dissertações depositados no Arca. Objetivo
  3. 3. 1) Volume crescente de objetos digitais; 2) A classificação de conteúdos não é uma ciência exata; 3) Caráter dinâmico ligado aos descritores; 4) Explorar novas possibilidades de Recuperação da Informação. Motivação
  4. 4. Por que usar Machine Learning? 1. Extração automática de descritores; 2. Cluster de documentos semelhantes; 3. Identificação das relações entre entidades como doenças e compostos químicos; 4. Georeferenciamento de publicações; 5. Identificação pesquisadores que analisam objetos semelhantes.
  5. 5. Objeto: Teses, dissertações e artigos depositados no ARCA Conjunto de publicações não representa real produção acadêmica da Fiocruz 4.707 obras analisadas
  6. 6. Metodologia proposta para a extração de descritores 1. Obtenção do Corpus 2. Pré-processamento dos documentos a.Extração de dados dos arquivos PDF b.Remoção de stopwords e de pontuação c.Uso de stemming d.Identificação de n-grams relevantes e.Identificação do idioma principal do texto (inglês, português ou espanhol) 3. Captura de dados do vocabulário Descritores em Ciências da Saúde (DeCS) 4. Cruzamento entre n-grams e o DeCS para a identificação de descritores para os documentos
  7. 7. Alguns resultados Melhora na revocação
  8. 8. Alguns resultados Análise temporal da utilização de termos (PSF x ESF) ESF PSF
  9. 9. Explorando a aplicação na Plataforma de Ciência de Dados aplicada à Saúde (PCDaS)
  10. 10. Explorando a aplicação na Plataforma de Ciência de Dados aplicada à Saúde (PCDaS)
  11. 11. Explorando a aplicação na Plataforma de Ciência de Dados aplicada à Saúde (PCDaS)
  12. 12. Explorando a aplicação na Plataforma de Ciência de Dados aplicada à Saúde (PCDaS)
  13. 13. Explorando a aplicação na Plataforma de Ciência de Dados aplicada à Saúde (PCDaS)
  14. 14. Explorando a aplicação na Plataforma de Ciência de Dados aplicada à Saúde (PCDaS)
  15. 15. Explorando a aplicação na Plataforma de Ciência de Dados aplicada à Saúde (PCDaS)
  16. 16. Aplicações de Mineração de textos – FGV/CPDOC Acervo do ex-ministro das Relações Exteriores do Brasil Antônio Azeredo da Silveira, que ocupou o cargo entre 1974 e 1979. 10.428 documentos com cerca de 67 mil páginas. “… manuscritos, documentos com gráficos, despachos em várias línguas” Fonte: https://oglobo.globo.com/sociedade/tecnologia/fgv-usa-inteligencia-artificial-para-agilizar-trabalho-de-historiadores-21872633
  17. 17. 1) Nada disso é possível sem Acesso Aberto; 2) Garantir a legibilidade por máquina; 3) Empoderamento do usuário; 4) Interdisciplinaridade. Considerações finais:
  18. 18. Plataforma de Ciência de Dados aplicada à Saúde (bigdata.saude@icict.fiocruz.br) Jefferson Lima (jefferson.lima@icict.fiocruz.br) Marcel Pedroso (marcel.pedroso@icict.fiocruz.br) Vinicius Assef Neto (vinicius.assef@icict.fiocruz.br)

×