Carregado porConferência Luso-Brasileira de Ciência Aberta

PDF, PPTX269 visualizações

Ciência de dados aplicada ao Arca: desenvolvimento e disponibilização de ferramentas para recuperação de informação no Repositório Institucional da Fundação Oswaldo Cruz - CONFOA 2017

O documento detalha a aplicação de ciência de dados e machine learning para melhorar a recuperação de informação no repositório institucional ARCA da Fiocruz, focando na classificação de artigos, teses e dissertações. A metodologia inclui a extração automática de descritores e análise de documentos para aumentar a eficiência na busca por publicações relevantes. Os resultados mostraram melhorias na revocação de conteúdos e a necessidade de um acesso aberto e legibilidade das informações.

Ciências◦

1) Volume crescente de objetos digitais;
2) A classificação de conteúdos não é uma ciência exata;
3) Caráter dinâmico ligado aos descritores;
4) Explorar novas possibilidades de Recuperação da Informação.
Motivação

Por que usar Machine Learning?
1. Extração automática de descritores;
2. Cluster de documentos semelhantes;
3. Identificação das relações entre entidades como doenças e
compostos químicos;
4. Georeferenciamento de publicações;
5. Identificação pesquisadores que analisam objetos semelhantes.

Objeto: Teses, dissertações e artigos depositados no ARCA
Conjunto de publicações não representa real produção acadêmica da Fiocruz
4.707 obras analisadas

Metodologia proposta para a extração de descritores
1. Obtenção do Corpus
2. Pré-processamento dos documentos
a.Extração de dados dos arquivos PDF
b.Remoção de stopwords e de pontuação
c.Uso de stemming
d.Identificação de n-grams relevantes
e.Identificação do idioma principal do texto (inglês, português ou espanhol)
3. Captura de dados do vocabulário Descritores em Ciências da Saúde
(DeCS)
4. Cruzamento entre n-grams e o DeCS para a identificação de descritores
para os documentos

Alguns resultados
Análise temporal da utilização de termos (PSF x ESF)
ESF
PSF

Explorando a aplicação na Plataforma de Ciência de Dados
aplicada à Saúde (PCDaS)

Aplicações de Mineração de textos – FGV/CPDOC
Acervo do ex-ministro das Relações
Exteriores do Brasil Antônio Azeredo da
Silveira, que ocupou o cargo entre 1974
e 1979.
10.428 documentos com cerca de 67
mil páginas.
“… manuscritos, documentos com
gráficos, despachos em várias línguas”
Fonte: https://oglobo.globo.com/sociedade/tecnologia/fgv-usa-inteligencia-artificial-para-agilizar-trabalho-de-historiadores-21872633

1) Nada disso é possível sem Acesso Aberto;
2) Garantir a legibilidade por máquina;
3) Empoderamento do usuário;
4) Interdisciplinaridade.
Considerações finais:

Plataforma de Ciência de Dados aplicada à Saúde (bigdata.saude@icict.fiocruz.br)
Jefferson Lima (jefferson.lima@icict.fiocruz.br)
Marcel Pedroso (marcel.pedroso@icict.fiocruz.br)
Vinicius Assef Neto (vinicius.assef@icict.fiocruz.br)

Mais conteúdo relacionado

PPT

FONTES DE INFORMAÇÃO ELETRÔNICAS AULA

porJúlia Gonçalves da Silveira

PDF

Pré-Workshop: Formação em Edição Eletrónica

porConferência Luso-Brasileira de Ciência Aberta

PDF

Análise relacional entre princípios FAIR de gestão de dados de pesquisa e nor...

porConferência Luso-Brasileira de Ciência Aberta

POT

DESCRIÇÃO DE RECURSOS INFORMACIONAIS BIBLIOGRÁFICOS NO PADRÃO DUBLIN CORE.

porFelipe Arakaki

PPTX

Citações e métricas complementares: um estudo da sua correlação em artigos ci...

porConferência Luso-Brasileira de Ciência Aberta

DOC

A capsula digital_da_historia

porNelson Silva

PPTX

Programa de formação modular sobre Ciência Aberta

porConferência Luso-Brasileira de Ciência Aberta

PPTX

10 anos RCAAP - ConfOA

porConferência Luso-Brasileira de Ciência Aberta

FONTES DE INFORMAÇÃO ELETRÔNICAS AULA

porJúlia Gonçalves da Silveira

Pré-Workshop: Formação em Edição Eletrónica

porConferência Luso-Brasileira de Ciência Aberta

Análise relacional entre princípios FAIR de gestão de dados de pesquisa e nor...

porConferência Luso-Brasileira de Ciência Aberta

DESCRIÇÃO DE RECURSOS INFORMACIONAIS BIBLIOGRÁFICOS NO PADRÃO DUBLIN CORE.

porFelipe Arakaki

Citações e métricas complementares: um estudo da sua correlação em artigos ci...

porConferência Luso-Brasileira de Ciência Aberta

A capsula digital_da_historia

porNelson Silva

Programa de formação modular sobre Ciência Aberta

porConferência Luso-Brasileira de Ciência Aberta

10 anos RCAAP - ConfOA

porConferência Luso-Brasileira de Ciência Aberta

Mais de Conferência Luso-Brasileira de Ciência Aberta

PDF

Transparência e Dados Abertos do Recife: Uma Estratégia Bem Sucedida de Publi...

porConferência Luso-Brasileira de Ciência Aberta

PDF

Ciência aberta, ciência cidadã, ciência comum: da ciência para todos à ciênci...

porConferência Luso-Brasileira de Ciência Aberta

PPTX

Ciência Aberta, Ciência Cidadã

porConferência Luso-Brasileira de Ciência Aberta

PPTX

Infraestrutura OpenAIRE: desenvolvimentos para o fortalecimento da Ciência Ab...

porConferência Luso-Brasileira de Ciência Aberta

PPTX

Recursos educacionais abertos na Universidade Aberta. A rede como estratégia ...

porConferência Luso-Brasileira de Ciência Aberta

PPT

Café com Ciência – divulgação das publicações técnico-científicas em acesso a...

porConferência Luso-Brasileira de Ciência Aberta

PPTX

Revistas científicas brasileiras de acesso aberto: qualidade do ponto de vist...

porConferência Luso-Brasileira de Ciência Aberta

PPTX

Publons: uma plataforma de visibilidade para revisão por pares no âmbito da c...

porConferência Luso-Brasileira de Ciência Aberta

PPT

Livros eletrônicos, políticas de licenciamento e acesso aberto - relações con...

porConferência Luso-Brasileira de Ciência Aberta

PPTX

Preservação digital, gestão de dados de pesquisa e biodversidade

porConferência Luso-Brasileira de Ciência Aberta

PPTX

Dados governamentais na perspectiva da Ciência Aberta: potencialidades e desa...

porConferência Luso-Brasileira de Ciência Aberta

PPTX

Serviço Nacional de Registo de Identificadores DOI

porConferência Luso-Brasileira de Ciência Aberta

PPTX

Análise da Produção Científica Brasileira em Periódicos de Acesso Aberto

porConferência Luso-Brasileira de Ciência Aberta

PPTX

Ciência aberta e revisão por pares aberta: aspectos e desafios da participaçã...

porConferência Luso-Brasileira de Ciência Aberta

PPTX

mportação da produção intelectual da universidade Federal de Minas Gerais a p...

porConferência Luso-Brasileira de Ciência Aberta

PPTX

Técnicas de Search Engine Optimization (SEO) aplicadas no site da Biblioteca ...

porConferência Luso-Brasileira de Ciência Aberta

PPTX

Altmetria e a análise das condições de interação em torno de artigos sobre po...

porConferência Luso-Brasileira de Ciência Aberta

PPTX

Do acesso à informação aos Dados Parlamentares Abertos em Portugal

porConferência Luso-Brasileira de Ciência Aberta

PPTX

Acesso aberto como ferramenta para o empoderamento do paciente

porConferência Luso-Brasileira de Ciência Aberta

PDF

Melhorando a citabilidade de programas de computador para pesquisa com o Cita...

porConferência Luso-Brasileira de Ciência Aberta

Transparência e Dados Abertos do Recife: Uma Estratégia Bem Sucedida de Publi...

porConferência Luso-Brasileira de Ciência Aberta

Ciência aberta, ciência cidadã, ciência comum: da ciência para todos à ciênci...

porConferência Luso-Brasileira de Ciência Aberta

Ciência Aberta, Ciência Cidadã

porConferência Luso-Brasileira de Ciência Aberta

Infraestrutura OpenAIRE: desenvolvimentos para o fortalecimento da Ciência Ab...

porConferência Luso-Brasileira de Ciência Aberta

Recursos educacionais abertos na Universidade Aberta. A rede como estratégia ...

porConferência Luso-Brasileira de Ciência Aberta

Café com Ciência – divulgação das publicações técnico-científicas em acesso a...

porConferência Luso-Brasileira de Ciência Aberta

Revistas científicas brasileiras de acesso aberto: qualidade do ponto de vist...

porConferência Luso-Brasileira de Ciência Aberta

Publons: uma plataforma de visibilidade para revisão por pares no âmbito da c...

porConferência Luso-Brasileira de Ciência Aberta

Livros eletrônicos, políticas de licenciamento e acesso aberto - relações con...

porConferência Luso-Brasileira de Ciência Aberta

Preservação digital, gestão de dados de pesquisa e biodversidade

porConferência Luso-Brasileira de Ciência Aberta

Dados governamentais na perspectiva da Ciência Aberta: potencialidades e desa...

porConferência Luso-Brasileira de Ciência Aberta

Serviço Nacional de Registo de Identificadores DOI

porConferência Luso-Brasileira de Ciência Aberta

Análise da Produção Científica Brasileira em Periódicos de Acesso Aberto

porConferência Luso-Brasileira de Ciência Aberta

Ciência aberta e revisão por pares aberta: aspectos e desafios da participaçã...

porConferência Luso-Brasileira de Ciência Aberta

mportação da produção intelectual da universidade Federal de Minas Gerais a p...

porConferência Luso-Brasileira de Ciência Aberta

Técnicas de Search Engine Optimization (SEO) aplicadas no site da Biblioteca ...

porConferência Luso-Brasileira de Ciência Aberta

Altmetria e a análise das condições de interação em torno de artigos sobre po...

porConferência Luso-Brasileira de Ciência Aberta

Do acesso à informação aos Dados Parlamentares Abertos em Portugal

porConferência Luso-Brasileira de Ciência Aberta

Acesso aberto como ferramenta para o empoderamento do paciente

porConferência Luso-Brasileira de Ciência Aberta

Melhorando a citabilidade de programas de computador para pesquisa com o Cita...

porConferência Luso-Brasileira de Ciência Aberta

Ciência de dados aplicada ao Arca: desenvolvimento e disponibilização de ferramentas para recuperação de informação no Repositório Institucional da Fundação Oswaldo Cruz - CONFOA 2017

1.
Ciência de Dadosaplicada ao Arca Desenvolvimento e disponibilização de ferramentas para Recuperação de Informação no Repositório Institucional da Fundação Oswaldo Cruz Jefferson Lima Marcel Pedroso Vinicius Assef Neto Icict/Fiocruz
2.
Utilizar Mineração deTextos e Aprendizagem por Máquina (Machine Learning) com o objetivo de aprimorar a Recuperação da Informação por meio da classificação automática de artigos, teses e dissertações depositados no Arca. Objetivo
3.
1) Volume crescentede objetos digitais; 2) A classificação de conteúdos não é uma ciência exata; 3) Caráter dinâmico ligado aos descritores; 4) Explorar novas possibilidades de Recuperação da Informação. Motivação
4.
Por que usarMachine Learning? 1. Extração automática de descritores; 2. Cluster de documentos semelhantes; 3. Identificação das relações entre entidades como doenças e compostos químicos; 4. Georeferenciamento de publicações; 5. Identificação pesquisadores que analisam objetos semelhantes.
5.
Objeto: Teses, dissertaçõese artigos depositados no ARCA Conjunto de publicações não representa real produção acadêmica da Fiocruz 4.707 obras analisadas
6.
Metodologia proposta paraa extração de descritores 1. Obtenção do Corpus 2. Pré-processamento dos documentos a.Extração de dados dos arquivos PDF b.Remoção de stopwords e de pontuação c.Uso de stemming d.Identificação de n-grams relevantes e.Identificação do idioma principal do texto (inglês, português ou espanhol) 3. Captura de dados do vocabulário Descritores em Ciências da Saúde (DeCS) 4. Cruzamento entre n-grams e o DeCS para a identificação de descritores para os documentos
7.
Alguns resultados Melhora narevocação
8.
Alguns resultados Análise temporalda utilização de termos (PSF x ESF) ESF PSF
9.
Explorando a aplicaçãona Plataforma de Ciência de Dados aplicada à Saúde (PCDaS)
10.
Explorando a aplicaçãona Plataforma de Ciência de Dados aplicada à Saúde (PCDaS)
11.
Explorando a aplicaçãona Plataforma de Ciência de Dados aplicada à Saúde (PCDaS)
12.
Explorando a aplicaçãona Plataforma de Ciência de Dados aplicada à Saúde (PCDaS)
13.
Explorando a aplicaçãona Plataforma de Ciência de Dados aplicada à Saúde (PCDaS)
14.
Explorando a aplicaçãona Plataforma de Ciência de Dados aplicada à Saúde (PCDaS)
15.
Explorando a aplicaçãona Plataforma de Ciência de Dados aplicada à Saúde (PCDaS)
16.
Aplicações de Mineraçãode textos – FGV/CPDOC Acervo do ex-ministro das Relações Exteriores do Brasil Antônio Azeredo da Silveira, que ocupou o cargo entre 1974 e 1979. 10.428 documentos com cerca de 67 mil páginas. “… manuscritos, documentos com gráficos, despachos em várias línguas” Fonte: https://oglobo.globo.com/sociedade/tecnologia/fgv-usa-inteligencia-artificial-para-agilizar-trabalho-de-historiadores-21872633
17.
1) Nada dissoé possível sem Acesso Aberto; 2) Garantir a legibilidade por máquina; 3) Empoderamento do usuário; 4) Interdisciplinaridade. Considerações finais:
18.
Plataforma de Ciênciade Dados aplicada à Saúde (bigdata.saude@icict.fiocruz.br) Jefferson Lima (jefferson.lima@icict.fiocruz.br) Marcel Pedroso (marcel.pedroso@icict.fiocruz.br) Vinicius Assef Neto (vinicius.assef@icict.fiocruz.br)