Ciência de dados aplicada ao Arca: desenvolvimento e disponibilização de ferramentas para recuperação de informação no Repositório Institucional da Fundação Oswaldo Cruz - CONFOA 2017
Ciência de dados aplicada ao Arca: desenvolvimento e disponibilização de ferramentas para recuperação de informação no Repositório Institucional da Fundação Oswaldo Cruz - CONFOA 2017
Ciência de dados aplicada ao Arca: desenvolvimento e disponibilização de ferramentas para recuperação de informação no Repositório Institucional da Fundação Oswaldo Cruz
Marcel Pedroso, Jefferson Lima, Vinicius Belchior Assef Neto
Similar a Ciência de dados aplicada ao Arca: desenvolvimento e disponibilização de ferramentas para recuperação de informação no Repositório Institucional da Fundação Oswaldo Cruz - CONFOA 2017
Similar a Ciência de dados aplicada ao Arca: desenvolvimento e disponibilização de ferramentas para recuperação de informação no Repositório Institucional da Fundação Oswaldo Cruz - CONFOA 2017(20)
Ciência de dados aplicada ao Arca: desenvolvimento e disponibilização de ferramentas para recuperação de informação no Repositório Institucional da Fundação Oswaldo Cruz - CONFOA 2017
1. Ciência de Dados aplicada ao Arca
Desenvolvimento e disponibilização de ferramentas
para Recuperação de Informação no Repositório
Institucional da Fundação Oswaldo Cruz
Jefferson Lima
Marcel Pedroso
Vinicius Assef Neto
Icict/Fiocruz
2. Utilizar Mineração de Textos e Aprendizagem por Máquina
(Machine Learning) com o objetivo de aprimorar a Recuperação da
Informação por meio da classificação automática de artigos, teses
e dissertações depositados no Arca.
Objetivo
3. 1) Volume crescente de objetos digitais;
2) A classificação de conteúdos não é uma ciência exata;
3) Caráter dinâmico ligado aos descritores;
4) Explorar novas possibilidades de Recuperação da Informação.
Motivação
4. Por que usar Machine Learning?
1. Extração automática de descritores;
2. Cluster de documentos semelhantes;
3. Identificação das relações entre entidades como doenças e
compostos químicos;
4. Georeferenciamento de publicações;
5. Identificação pesquisadores que analisam objetos semelhantes.
5. Objeto: Teses, dissertações e artigos depositados no ARCA
Conjunto de publicações não representa real produção acadêmica da Fiocruz
4.707 obras analisadas
6. Metodologia proposta para a extração de descritores
1. Obtenção do Corpus
2. Pré-processamento dos documentos
a.Extração de dados dos arquivos PDF
b.Remoção de stopwords e de pontuação
c.Uso de stemming
d.Identificação de n-grams relevantes
e.Identificação do idioma principal do texto (inglês, português ou espanhol)
3. Captura de dados do vocabulário Descritores em Ciências da Saúde
(DeCS)
4. Cruzamento entre n-grams e o DeCS para a identificação de descritores
para os documentos
16. Aplicações de Mineração de textos – FGV/CPDOC
Acervo do ex-ministro das Relações
Exteriores do Brasil Antônio Azeredo da
Silveira, que ocupou o cargo entre 1974
e 1979.
10.428 documentos com cerca de 67
mil páginas.
“… manuscritos, documentos com
gráficos, despachos em várias línguas”
Fonte: https://oglobo.globo.com/sociedade/tecnologia/fgv-usa-inteligencia-artificial-para-agilizar-trabalho-de-historiadores-21872633
17. 1) Nada disso é possível sem Acesso Aberto;
2) Garantir a legibilidade por máquina;
3) Empoderamento do usuário;
4) Interdisciplinaridade.
Considerações finais:
18. Plataforma de Ciência de Dados aplicada à Saúde (bigdata.saude@icict.fiocruz.br)
Jefferson Lima (jefferson.lima@icict.fiocruz.br)
Marcel Pedroso (marcel.pedroso@icict.fiocruz.br)
Vinicius Assef Neto (vinicius.assef@icict.fiocruz.br)