Ciência de Dados aplicada ao Arca
Desenvolvimento e disponibilização de ferramentas
para Recuperação de Informação no Repositório
Institucional da Fundação Oswaldo Cruz
Jefferson Lima
Marcel Pedroso
Vinicius Assef Neto
Icict/Fiocruz
Utilizar Mineração de Textos e Aprendizagem por Máquina
(Machine Learning) com o objetivo de aprimorar a Recuperação da
Informação por meio da classificação automática de artigos, teses
e dissertações depositados no Arca.
Objetivo
1) Volume crescente de objetos digitais;
2) A classificação de conteúdos não é uma ciência exata;
3) Caráter dinâmico ligado aos descritores;
4) Explorar novas possibilidades de Recuperação da Informação.
Motivação
Por que usar Machine Learning?
1. Extração automática de descritores;
2. Cluster de documentos semelhantes;
3. Identificação das relações entre entidades como doenças e
compostos químicos;
4. Georeferenciamento de publicações;
5. Identificação pesquisadores que analisam objetos semelhantes.
Objeto: Teses, dissertações e artigos depositados no ARCA
Conjunto de publicações não representa real produção acadêmica da Fiocruz
4.707 obras analisadas
Metodologia proposta para a extração de descritores
1. Obtenção do Corpus
2. Pré-processamento dos documentos
a.Extração de dados dos arquivos PDF
b.Remoção de stopwords e de pontuação
c.Uso de stemming
d.Identificação de n-grams relevantes
e.Identificação do idioma principal do texto (inglês, português ou espanhol)
3. Captura de dados do vocabulário Descritores em Ciências da Saúde
(DeCS)
4. Cruzamento entre n-grams e o DeCS para a identificação de descritores
para os documentos
Alguns resultados
Melhora na revocação
Alguns resultados
Análise temporal da utilização de termos (PSF x ESF)
ESF
PSF
Explorando a aplicação na Plataforma de Ciência de Dados
aplicada à Saúde (PCDaS)
Explorando a aplicação na Plataforma de Ciência de Dados
aplicada à Saúde (PCDaS)
Explorando a aplicação na Plataforma de Ciência de Dados
aplicada à Saúde (PCDaS)
Explorando a aplicação na Plataforma de Ciência de Dados
aplicada à Saúde (PCDaS)
Explorando a aplicação na Plataforma de Ciência de Dados
aplicada à Saúde (PCDaS)
Explorando a aplicação na Plataforma de Ciência de Dados
aplicada à Saúde (PCDaS)
Explorando a aplicação na Plataforma de Ciência de Dados
aplicada à Saúde (PCDaS)
Aplicações de Mineração de textos – FGV/CPDOC
Acervo do ex-ministro das Relações
Exteriores do Brasil Antônio Azeredo da
Silveira, que ocupou o cargo entre 1974
e 1979.
10.428 documentos com cerca de 67
mil páginas.
“… manuscritos, documentos com
gráficos, despachos em várias línguas”
Fonte: https://oglobo.globo.com/sociedade/tecnologia/fgv-usa-inteligencia-artificial-para-agilizar-trabalho-de-historiadores-21872633
1) Nada disso é possível sem Acesso Aberto;
2) Garantir a legibilidade por máquina;
3) Empoderamento do usuário;
4) Interdisciplinaridade.
Considerações finais:
Plataforma de Ciência de Dados aplicada à Saúde (bigdata.saude@icict.fiocruz.br)
Jefferson Lima (jefferson.lima@icict.fiocruz.br)
Marcel Pedroso (marcel.pedroso@icict.fiocruz.br)
Vinicius Assef Neto (vinicius.assef@icict.fiocruz.br)

Ciência de dados aplicada ao Arca: desenvolvimento e disponibilização de ferramentas para recuperação de informação no Repositório Institucional da Fundação Oswaldo Cruz - CONFOA 2017

  • 1.
    Ciência de Dadosaplicada ao Arca Desenvolvimento e disponibilização de ferramentas para Recuperação de Informação no Repositório Institucional da Fundação Oswaldo Cruz Jefferson Lima Marcel Pedroso Vinicius Assef Neto Icict/Fiocruz
  • 2.
    Utilizar Mineração deTextos e Aprendizagem por Máquina (Machine Learning) com o objetivo de aprimorar a Recuperação da Informação por meio da classificação automática de artigos, teses e dissertações depositados no Arca. Objetivo
  • 3.
    1) Volume crescentede objetos digitais; 2) A classificação de conteúdos não é uma ciência exata; 3) Caráter dinâmico ligado aos descritores; 4) Explorar novas possibilidades de Recuperação da Informação. Motivação
  • 4.
    Por que usarMachine Learning? 1. Extração automática de descritores; 2. Cluster de documentos semelhantes; 3. Identificação das relações entre entidades como doenças e compostos químicos; 4. Georeferenciamento de publicações; 5. Identificação pesquisadores que analisam objetos semelhantes.
  • 5.
    Objeto: Teses, dissertaçõese artigos depositados no ARCA Conjunto de publicações não representa real produção acadêmica da Fiocruz 4.707 obras analisadas
  • 6.
    Metodologia proposta paraa extração de descritores 1. Obtenção do Corpus 2. Pré-processamento dos documentos a.Extração de dados dos arquivos PDF b.Remoção de stopwords e de pontuação c.Uso de stemming d.Identificação de n-grams relevantes e.Identificação do idioma principal do texto (inglês, português ou espanhol) 3. Captura de dados do vocabulário Descritores em Ciências da Saúde (DeCS) 4. Cruzamento entre n-grams e o DeCS para a identificação de descritores para os documentos
  • 7.
  • 8.
    Alguns resultados Análise temporalda utilização de termos (PSF x ESF) ESF PSF
  • 9.
    Explorando a aplicaçãona Plataforma de Ciência de Dados aplicada à Saúde (PCDaS)
  • 10.
    Explorando a aplicaçãona Plataforma de Ciência de Dados aplicada à Saúde (PCDaS)
  • 11.
    Explorando a aplicaçãona Plataforma de Ciência de Dados aplicada à Saúde (PCDaS)
  • 12.
    Explorando a aplicaçãona Plataforma de Ciência de Dados aplicada à Saúde (PCDaS)
  • 13.
    Explorando a aplicaçãona Plataforma de Ciência de Dados aplicada à Saúde (PCDaS)
  • 14.
    Explorando a aplicaçãona Plataforma de Ciência de Dados aplicada à Saúde (PCDaS)
  • 15.
    Explorando a aplicaçãona Plataforma de Ciência de Dados aplicada à Saúde (PCDaS)
  • 16.
    Aplicações de Mineraçãode textos – FGV/CPDOC Acervo do ex-ministro das Relações Exteriores do Brasil Antônio Azeredo da Silveira, que ocupou o cargo entre 1974 e 1979. 10.428 documentos com cerca de 67 mil páginas. “… manuscritos, documentos com gráficos, despachos em várias línguas” Fonte: https://oglobo.globo.com/sociedade/tecnologia/fgv-usa-inteligencia-artificial-para-agilizar-trabalho-de-historiadores-21872633
  • 17.
    1) Nada dissoé possível sem Acesso Aberto; 2) Garantir a legibilidade por máquina; 3) Empoderamento do usuário; 4) Interdisciplinaridade. Considerações finais:
  • 18.
    Plataforma de Ciênciade Dados aplicada à Saúde (bigdata.saude@icict.fiocruz.br) Jefferson Lima (jefferson.lima@icict.fiocruz.br) Marcel Pedroso (marcel.pedroso@icict.fiocruz.br) Vinicius Assef Neto (vinicius.assef@icict.fiocruz.br)