Ciência de dados aplicada ao Arca: desenvolvimento e disponibilização de ferramentas para recuperação de informação no Repositório Institucional da Fundação Oswaldo Cruz - CONFOA 2017

Conferência Luso-Brasileira de Ciência Aberta
Conferência Luso-Brasileira de Ciência AbertaConferência Luso-Brasileira de Ciência Aberta
Ciência de Dados aplicada ao Arca
Desenvolvimento e disponibilização de ferramentas
para Recuperação de Informação no Repositório
Institucional da Fundação Oswaldo Cruz
Jefferson Lima
Marcel Pedroso
Vinicius Assef Neto
Icict/Fiocruz
Utilizar Mineração de Textos e Aprendizagem por Máquina
(Machine Learning) com o objetivo de aprimorar a Recuperação da
Informação por meio da classificação automática de artigos, teses
e dissertações depositados no Arca.
Objetivo
1) Volume crescente de objetos digitais;
2) A classificação de conteúdos não é uma ciência exata;
3) Caráter dinâmico ligado aos descritores;
4) Explorar novas possibilidades de Recuperação da Informação.
Motivação
Por que usar Machine Learning?
1. Extração automática de descritores;
2. Cluster de documentos semelhantes;
3. Identificação das relações entre entidades como doenças e
compostos químicos;
4. Georeferenciamento de publicações;
5. Identificação pesquisadores que analisam objetos semelhantes.
Objeto: Teses, dissertações e artigos depositados no ARCA
Conjunto de publicações não representa real produção acadêmica da Fiocruz
4.707 obras analisadas
Metodologia proposta para a extração de descritores
1. Obtenção do Corpus
2. Pré-processamento dos documentos
a.Extração de dados dos arquivos PDF
b.Remoção de stopwords e de pontuação
c.Uso de stemming
d.Identificação de n-grams relevantes
e.Identificação do idioma principal do texto (inglês, português ou espanhol)
3. Captura de dados do vocabulário Descritores em Ciências da Saúde
(DeCS)
4. Cruzamento entre n-grams e o DeCS para a identificação de descritores
para os documentos
Alguns resultados
Melhora na revocação
Alguns resultados
Análise temporal da utilização de termos (PSF x ESF)
ESF
PSF
Explorando a aplicação na Plataforma de Ciência de Dados
aplicada à Saúde (PCDaS)
Explorando a aplicação na Plataforma de Ciência de Dados
aplicada à Saúde (PCDaS)
Explorando a aplicação na Plataforma de Ciência de Dados
aplicada à Saúde (PCDaS)
Explorando a aplicação na Plataforma de Ciência de Dados
aplicada à Saúde (PCDaS)
Explorando a aplicação na Plataforma de Ciência de Dados
aplicada à Saúde (PCDaS)
Explorando a aplicação na Plataforma de Ciência de Dados
aplicada à Saúde (PCDaS)
Explorando a aplicação na Plataforma de Ciência de Dados
aplicada à Saúde (PCDaS)
Aplicações de Mineração de textos – FGV/CPDOC
Acervo do ex-ministro das Relações
Exteriores do Brasil Antônio Azeredo da
Silveira, que ocupou o cargo entre 1974
e 1979.
10.428 documentos com cerca de 67
mil páginas.
“… manuscritos, documentos com
gráficos, despachos em várias línguas”
Fonte: https://oglobo.globo.com/sociedade/tecnologia/fgv-usa-inteligencia-artificial-para-agilizar-trabalho-de-historiadores-21872633
1) Nada disso é possível sem Acesso Aberto;
2) Garantir a legibilidade por máquina;
3) Empoderamento do usuário;
4) Interdisciplinaridade.
Considerações finais:
Plataforma de Ciência de Dados aplicada à Saúde (bigdata.saude@icict.fiocruz.br)
Jefferson Lima (jefferson.lima@icict.fiocruz.br)
Marcel Pedroso (marcel.pedroso@icict.fiocruz.br)
Vinicius Assef Neto (vinicius.assef@icict.fiocruz.br)
1 de 18

Recomendados

A capsula digital_da_historia por
A capsula digital_da_historiaA capsula digital_da_historia
A capsula digital_da_historiaNelson Silva
99 visualizações2 slides
DESCRIÇÃO DE RECURSOS INFORMACIONAIS BIBLIOGRÁFICOS NO PADRÃO DUBLIN CORE. por
DESCRIÇÃO DE RECURSOS INFORMACIONAIS BIBLIOGRÁFICOS NO PADRÃO DUBLIN CORE.DESCRIÇÃO DE RECURSOS INFORMACIONAIS BIBLIOGRÁFICOS NO PADRÃO DUBLIN CORE.
DESCRIÇÃO DE RECURSOS INFORMACIONAIS BIBLIOGRÁFICOS NO PADRÃO DUBLIN CORE.Felipe Arakaki
769 visualizações12 slides
FONTES DE INFORMAÇÃO ELETRÔNICAS AULA por
FONTES DE INFORMAÇÃO ELETRÔNICAS AULAFONTES DE INFORMAÇÃO ELETRÔNICAS AULA
FONTES DE INFORMAÇÃO ELETRÔNICAS AULAJúlia Gonçalves da Silveira
2.2K visualizações38 slides
aula-091.ppt por
aula-091.pptaula-091.ppt
aula-091.pptAdemar Trindade
2 visualizações24 slides
Hipertexto, anotaçoes semânticas e rede(s) na História da Ciência, Tecnologia... por
Hipertexto, anotaçoes semânticas e rede(s) na História da Ciência, Tecnologia...Hipertexto, anotaçoes semânticas e rede(s) na História da Ciência, Tecnologia...
Hipertexto, anotaçoes semânticas e rede(s) na História da Ciência, Tecnologia...José Pedro Sousa Dias
874 visualizações49 slides
ESTUDO MÉTRICO TEMÁTICO SOBRE BIBLIOTECA DIGITAL NO BRASIL: uma aplicação do ... por
ESTUDO MÉTRICO TEMÁTICO SOBRE BIBLIOTECA DIGITAL NO BRASIL: uma aplicação do ...ESTUDO MÉTRICO TEMÁTICO SOBRE BIBLIOTECA DIGITAL NO BRASIL: uma aplicação do ...
ESTUDO MÉTRICO TEMÁTICO SOBRE BIBLIOTECA DIGITAL NO BRASIL: uma aplicação do ...VI EBBC - Encontro Brasileiro de Bibliometria e Cientometria
64 visualizações12 slides

Mais conteúdo relacionado

Similar a Ciência de dados aplicada ao Arca: desenvolvimento e disponibilização de ferramentas para recuperação de informação no Repositório Institucional da Fundação Oswaldo Cruz - CONFOA 2017

Pesquisa bibliografica: Engenharia por
Pesquisa bibliografica: EngenhariaPesquisa bibliografica: Engenharia
Pesquisa bibliografica: EngenhariaLeticia Strehl
3.8K visualizações48 slides
Compilação de Corpus em Língua Portuguesa na área de Nanociência/Nanotecnolog... por
Compilação de Corpus em Língua Portuguesa na área de Nanociência/Nanotecnolog...Compilação de Corpus em Língua Portuguesa na área de Nanociência/Nanotecnolog...
Compilação de Corpus em Língua Portuguesa na área de Nanociência/Nanotecnolog...Joel S. Coleti
496 visualizações39 slides
Informações documentárias por
Informações documentáriasInformações documentárias
Informações documentáriasFelipe Benevenutto
456 visualizações57 slides
Fontes de informação na produção cientifica - Prof. Ma. Diana Vilas Boas Sout... por
Fontes de informação na produção cientifica - Prof. Ma. Diana Vilas Boas Sout...Fontes de informação na produção cientifica - Prof. Ma. Diana Vilas Boas Sout...
Fontes de informação na produção cientifica - Prof. Ma. Diana Vilas Boas Sout...Competências Digitais para Agricultura Familiar
165 visualizações23 slides
Arquitetura mínima de metadados para dados científicos por
Arquitetura mínima de metadados para dados científicosArquitetura mínima de metadados para dados científicos
Arquitetura mínima de metadados para dados científicosAna Carolina Simionato
672 visualizações24 slides
Atlas analise de dados por
Atlas analise de dadosAtlas analise de dados
Atlas analise de dadosMiller Brandão
11 visualizações14 slides

Similar a Ciência de dados aplicada ao Arca: desenvolvimento e disponibilização de ferramentas para recuperação de informação no Repositório Institucional da Fundação Oswaldo Cruz - CONFOA 2017(20)

Pesquisa bibliografica: Engenharia por Leticia Strehl
Pesquisa bibliografica: EngenhariaPesquisa bibliografica: Engenharia
Pesquisa bibliografica: Engenharia
Leticia Strehl3.8K visualizações
Compilação de Corpus em Língua Portuguesa na área de Nanociência/Nanotecnolog... por Joel S. Coleti
Compilação de Corpus em Língua Portuguesa na área de Nanociência/Nanotecnolog...Compilação de Corpus em Língua Portuguesa na área de Nanociência/Nanotecnolog...
Compilação de Corpus em Língua Portuguesa na área de Nanociência/Nanotecnolog...
Joel S. Coleti496 visualizações
Informações documentárias por Felipe Benevenutto
Informações documentáriasInformações documentárias
Informações documentárias
Felipe Benevenutto456 visualizações
Arquitetura mínima de metadados para dados científicos por Ana Carolina Simionato
Arquitetura mínima de metadados para dados científicosArquitetura mínima de metadados para dados científicos
Arquitetura mínima de metadados para dados científicos
Ana Carolina Simionato672 visualizações
Atlas analise de dados por Miller Brandão
Atlas analise de dadosAtlas analise de dados
Atlas analise de dados
Miller Brandão11 visualizações
Publicação de artigos científicos em revistas indexadas por Angela Pereira de Farias
Publicação de artigos científicos em revistas indexadasPublicação de artigos científicos em revistas indexadas
Publicação de artigos científicos em revistas indexadas
Angela Pereira de Farias28.1K visualizações
A preservação digital num repositório de Dados de Pesquisa: o caso do IRD por pascal aventurier
A preservação digital num repositório de Dados de Pesquisa: o caso do IRDA preservação digital num repositório de Dados de Pesquisa: o caso do IRD
A preservação digital num repositório de Dados de Pesquisa: o caso do IRD
pascal aventurier114 visualizações
Encontros Bibli e o Portal de Periódicos UFSC por UFSC
Encontros Bibli e o Portal de Periódicos UFSCEncontros Bibli e o Portal de Periódicos UFSC
Encontros Bibli e o Portal de Periódicos UFSC
UFSC1K visualizações
2a apresentação pb g5 por pekenit5a1991
2a apresentação pb g52a apresentação pb g5
2a apresentação pb g5
pekenit5a1991397 visualizações
Dicionário-piloto de Nanociência e Nanotecnologia: do corpus à disponibilizaç... por Joel S. Coleti
Dicionário-piloto de Nanociência e Nanotecnologia: do corpus à disponibilizaç...Dicionário-piloto de Nanociência e Nanotecnologia: do corpus à disponibilizaç...
Dicionário-piloto de Nanociência e Nanotecnologia: do corpus à disponibilizaç...
Joel S. Coleti438 visualizações
Dataverse cariniana 2017 por Cariniana Rede
Dataverse cariniana 2017Dataverse cariniana 2017
Dataverse cariniana 2017
Cariniana Rede489 visualizações
Recursos didáticos: produzir, encontrar, remixar, organizar, catalogar por Bianca Santana
Recursos didáticos: produzir, encontrar, remixar, organizar, catalogarRecursos didáticos: produzir, encontrar, remixar, organizar, catalogar
Recursos didáticos: produzir, encontrar, remixar, organizar, catalogar
Bianca Santana876 visualizações
Da ciência aos dados abertos por Fabrício Garrido
Da ciência aos dados abertosDa ciência aos dados abertos
Da ciência aos dados abertos
Fabrício Garrido166 visualizações
As conquistas chinesas do ábaco à atualidade por Conceição Rosa
As conquistas chinesas do ábaco à atualidadeAs conquistas chinesas do ábaco à atualidade
As conquistas chinesas do ábaco à atualidade
Conceição Rosa1.7K visualizações
Fonte primaria [modo de compatibilidade] por jani_jpa2012
Fonte primaria [modo de compatibilidade]Fonte primaria [modo de compatibilidade]
Fonte primaria [modo de compatibilidade]
jani_jpa2012410 visualizações
#3# ebsco e b on-workshop de doutoramento__27 e 28 novembro 2015.ppt por Carlos Lopes
#3# ebsco e b on-workshop de doutoramento__27 e 28 novembro 2015.ppt#3# ebsco e b on-workshop de doutoramento__27 e 28 novembro 2015.ppt
#3# ebsco e b on-workshop de doutoramento__27 e 28 novembro 2015.ppt
Carlos Lopes335 visualizações
va_Arte_Pesquisar_II_Estratégia_busca_fontes_informação_2019.ppt por Allas Jony da Silva Oliveira
va_Arte_Pesquisar_II_Estratégia_busca_fontes_informação_2019.pptva_Arte_Pesquisar_II_Estratégia_busca_fontes_informação_2019.ppt
va_Arte_Pesquisar_II_Estratégia_busca_fontes_informação_2019.ppt
Allas Jony da Silva Oliveira5 visualizações
va_Arte_Pesquisar_II_Estratégia_busca_fontes_informação_2019.ppt por Ademar Trindade
va_Arte_Pesquisar_II_Estratégia_busca_fontes_informação_2019.pptva_Arte_Pesquisar_II_Estratégia_busca_fontes_informação_2019.ppt
va_Arte_Pesquisar_II_Estratégia_busca_fontes_informação_2019.ppt
Ademar Trindade2 visualizações

Mais de Conferência Luso-Brasileira de Ciência Aberta

Citações e métricas complementares: um estudo da sua correlação em artigos ci... por
Citações e métricas complementares: um estudo da sua correlação em artigos ci...Citações e métricas complementares: um estudo da sua correlação em artigos ci...
Citações e métricas complementares: um estudo da sua correlação em artigos ci...Conferência Luso-Brasileira de Ciência Aberta
1.2K visualizações24 slides
Pré-Workshop: Formação em Edição Eletrónica por
Pré-Workshop: Formação em Edição EletrónicaPré-Workshop: Formação em Edição Eletrónica
Pré-Workshop: Formação em Edição EletrónicaConferência Luso-Brasileira de Ciência Aberta
424 visualizações15 slides
Análise relacional entre princípios FAIR de gestão de dados de pesquisa e nor... por
Análise relacional entre princípios FAIR de gestão de dados de pesquisa e nor...Análise relacional entre princípios FAIR de gestão de dados de pesquisa e nor...
Análise relacional entre princípios FAIR de gestão de dados de pesquisa e nor...Conferência Luso-Brasileira de Ciência Aberta
503 visualizações15 slides
10 anos RCAAP - ConfOA por
10 anos RCAAP - ConfOA10 anos RCAAP - ConfOA
10 anos RCAAP - ConfOAConferência Luso-Brasileira de Ciência Aberta
342 visualizações5 slides
Programa de formação modular sobre Ciência Aberta por
Programa de formação modular sobre Ciência AbertaPrograma de formação modular sobre Ciência Aberta
Programa de formação modular sobre Ciência AbertaConferência Luso-Brasileira de Ciência Aberta
329 visualizações9 slides
Análise da Produção Científica Brasileira em Periódicos de Acesso Aberto por
Análise da Produção Científica Brasileira em Periódicos de Acesso AbertoAnálise da Produção Científica Brasileira em Periódicos de Acesso Aberto
Análise da Produção Científica Brasileira em Periódicos de Acesso AbertoConferência Luso-Brasileira de Ciência Aberta
362 visualizações10 slides

Mais de Conferência Luso-Brasileira de Ciência Aberta(20)

Ciência de dados aplicada ao Arca: desenvolvimento e disponibilização de ferramentas para recuperação de informação no Repositório Institucional da Fundação Oswaldo Cruz - CONFOA 2017

  • 1. Ciência de Dados aplicada ao Arca Desenvolvimento e disponibilização de ferramentas para Recuperação de Informação no Repositório Institucional da Fundação Oswaldo Cruz Jefferson Lima Marcel Pedroso Vinicius Assef Neto Icict/Fiocruz
  • 2. Utilizar Mineração de Textos e Aprendizagem por Máquina (Machine Learning) com o objetivo de aprimorar a Recuperação da Informação por meio da classificação automática de artigos, teses e dissertações depositados no Arca. Objetivo
  • 3. 1) Volume crescente de objetos digitais; 2) A classificação de conteúdos não é uma ciência exata; 3) Caráter dinâmico ligado aos descritores; 4) Explorar novas possibilidades de Recuperação da Informação. Motivação
  • 4. Por que usar Machine Learning? 1. Extração automática de descritores; 2. Cluster de documentos semelhantes; 3. Identificação das relações entre entidades como doenças e compostos químicos; 4. Georeferenciamento de publicações; 5. Identificação pesquisadores que analisam objetos semelhantes.
  • 5. Objeto: Teses, dissertações e artigos depositados no ARCA Conjunto de publicações não representa real produção acadêmica da Fiocruz 4.707 obras analisadas
  • 6. Metodologia proposta para a extração de descritores 1. Obtenção do Corpus 2. Pré-processamento dos documentos a.Extração de dados dos arquivos PDF b.Remoção de stopwords e de pontuação c.Uso de stemming d.Identificação de n-grams relevantes e.Identificação do idioma principal do texto (inglês, português ou espanhol) 3. Captura de dados do vocabulário Descritores em Ciências da Saúde (DeCS) 4. Cruzamento entre n-grams e o DeCS para a identificação de descritores para os documentos
  • 8. Alguns resultados Análise temporal da utilização de termos (PSF x ESF) ESF PSF
  • 9. Explorando a aplicação na Plataforma de Ciência de Dados aplicada à Saúde (PCDaS)
  • 10. Explorando a aplicação na Plataforma de Ciência de Dados aplicada à Saúde (PCDaS)
  • 11. Explorando a aplicação na Plataforma de Ciência de Dados aplicada à Saúde (PCDaS)
  • 12. Explorando a aplicação na Plataforma de Ciência de Dados aplicada à Saúde (PCDaS)
  • 13. Explorando a aplicação na Plataforma de Ciência de Dados aplicada à Saúde (PCDaS)
  • 14. Explorando a aplicação na Plataforma de Ciência de Dados aplicada à Saúde (PCDaS)
  • 15. Explorando a aplicação na Plataforma de Ciência de Dados aplicada à Saúde (PCDaS)
  • 16. Aplicações de Mineração de textos – FGV/CPDOC Acervo do ex-ministro das Relações Exteriores do Brasil Antônio Azeredo da Silveira, que ocupou o cargo entre 1974 e 1979. 10.428 documentos com cerca de 67 mil páginas. “… manuscritos, documentos com gráficos, despachos em várias línguas” Fonte: https://oglobo.globo.com/sociedade/tecnologia/fgv-usa-inteligencia-artificial-para-agilizar-trabalho-de-historiadores-21872633
  • 17. 1) Nada disso é possível sem Acesso Aberto; 2) Garantir a legibilidade por máquina; 3) Empoderamento do usuário; 4) Interdisciplinaridade. Considerações finais:
  • 18. Plataforma de Ciência de Dados aplicada à Saúde (bigdata.saude@icict.fiocruz.br) Jefferson Lima (jefferson.lima@icict.fiocruz.br) Marcel Pedroso (marcel.pedroso@icict.fiocruz.br) Vinicius Assef Neto (vinicius.assef@icict.fiocruz.br)