O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.
Estudo para integração entre a Plataforma
Lattes, a Biblioteca Digital Brasileira de
Teses e Dissertações (BDTD) e o Banco...
O que é?
 BDTD (Biblioteca Digital de Teses e Dissertações)
 Criada em 2002;
 Mantida e coordenada pelo Instituto Brasi...
O que é?
 Plataforma Lattes
 Surgiu em 1999 por um projeto do Conselho Nacional de
Desenvolvimento Científico e Tecnológ...
O que é?
 Banco de Teses e Dissertações da CAPES
 Criado em 2002 pela Coordenação de Aperfeiçoamento
de Pessoal de Nível...
Objetivo
Justificativa
 Uso da BDTD tem sido extenso no Brasil e em países de língua
portuguesa
 90% dos acessos tem origem em te...
Metodologia
 Ferramentas
Metodologia
 Processo
Pré-processamentoColeta de dados Integração
Metodologia
Metodologia
 Pré-processamento:
 Limpeza dos dados: tolower; remoção de caracteres
especiais; remoção de números; remoçã...
Metodologia
 Pré-processamento:
 Criação do campo “sigla instituição” na base Lattes;
 Eliminação de de-duplicação nas ...
Metodologia
 Integração:
 Integração BDTD - CAPES
I5, 8Gb, Linux;
Levenstein com valor < 3, aproximadamente 57h, + 1
m...
Metodologia
 Integração
Integração BDTD/CAPES – Lattes
Intel Xeon, 12Gb, Linux;
Jaro > 75%;
Aproximadamente 40h;
+ 1...
Resultados
Lattes
BDTD LATTES
Resultados
 1.745.138 registros;
 412.487 Teses e 1.332.651 Dissertações;
 498 instituições brasileiras;
 Datas de def...
Desafios
 Etapas de limpeza e normalização; variação de
erros de preenchimento;
Conclusão
 Dados não-estruturados, a infraestrutura computacional
disponível influenciou o tempo de execução dos
algoritm...
Trabalhos Futuros
 Como trabalhos futuros, criar uma base de consulta
centralizada, para validação dos dados na Plataform...
Estudo para integração entre a plataforma Lattes, a Biblioteca Digital Brasileira de Teses e Dissertações (BDTD) e o Banco...
Próximos SlideShares
Carregando em…5
×

Estudo para integração entre a plataforma Lattes, a Biblioteca Digital Brasileira de Teses e Dissertações (BDTD) e o Banco de Teses e Dissertações da Capes - CONFOA 2017

181 visualizações

Publicada em

Estudo para integração entre a plataforma Lattes, a Biblioteca Digital Brasileira de Teses e Dissertações (BDTD) e o Banco de Teses e Dissertações da Capes
Gabriel Lima Gomes, Washington Carvalho Segundo

Publicada em: Ciências
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Estudo para integração entre a plataforma Lattes, a Biblioteca Digital Brasileira de Teses e Dissertações (BDTD) e o Banco de Teses e Dissertações da Capes - CONFOA 2017

  1. 1. Estudo para integração entre a Plataforma Lattes, a Biblioteca Digital Brasileira de Teses e Dissertações (BDTD) e o Banco de Teses e Dissertações da Capes Gabriel Lima Gomes – IBICT Washington L. R. de Carvalho Segundo - IBICT
  2. 2. O que é?  BDTD (Biblioteca Digital de Teses e Dissertações)  Criada em 2002;  Mantida e coordenada pelo Instituto Brasileiro de Informação em Ciência e Tecnologia (IBICT);  Congrega sistema de informação brasileiros de acesso aberto;  Teses e dissertações;
  3. 3. O que é?  Plataforma Lattes  Surgiu em 1999 por um projeto do Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq);  Implementada por grupo universitários da Universidade Federal de Santa Catarina (UFSC) e a Universidade Federal de Pernambuco (UFPE), com contribuições da Multsoft;  Base nacional de currículos de pesquisadores do Brasil;
  4. 4. O que é?  Banco de Teses e Dissertações da CAPES  Criado em 2002 pela Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES);  Armazena resumos de teses e dissertações dos programas de pós-graduação do país;
  5. 5. Objetivo
  6. 6. Justificativa  Uso da BDTD tem sido extenso no Brasil e em países de língua portuguesa  90% dos acessos tem origem em território nacional;  3,25% dos acessos tem origem de Portugal;  2% dos acessos tem origem de Moçambique;  0,78% dos acessos tem origem de Angola;  Banco da CAPES é a iniciativa nacional que reúne o maior número de resumos de teses e dissertações;  BDTD pode contribuir, pois agrega e viabiliza o acesso aberto a teses e dissertações;  Plataforma Lattes poderá dar mais qualidade e detalhes as teses e dissertações disponibilizadas em acesso aberto;
  7. 7. Metodologia  Ferramentas
  8. 8. Metodologia  Processo Pré-processamentoColeta de dados Integração
  9. 9. Metodologia
  10. 10. Metodologia  Pré-processamento:  Limpeza dos dados: tolower; remoção de caracteres especiais; remoção de números; remoção de espaços duplicados;  Campo autor: normalização dos nomes para forma direta; Remoção do nome da instituição;  Criação de um vocabulário de instituições e suas variações em Json;
  11. 11. Metodologia  Pré-processamento:  Criação do campo “sigla instituição” na base Lattes;  Eliminação de de-duplicação nas bases: Similaridade Levenshtein e Jaro; BDTD: 6500; CAPES: 2700; Lattes: 400 mil.
  12. 12. Metodologia  Integração:  Integração BDTD - CAPES I5, 8Gb, Linux; Levenstein com valor < 3, aproximadamente 57h, + 1 milhão de registros; Jaro > 85%, aproximadamente 60h, + 1 milhão de registros;
  13. 13. Metodologia  Integração Integração BDTD/CAPES – Lattes Intel Xeon, 12Gb, Linux; Jaro > 75%; Aproximadamente 40h; + 1.500.000 registros;
  14. 14. Resultados Lattes BDTD LATTES
  15. 15. Resultados  1.745.138 registros;  412.487 Teses e 1.332.651 Dissertações;  498 instituições brasileiras;  Datas de defesa que vão de 1950 à 2017;
  16. 16. Desafios  Etapas de limpeza e normalização; variação de erros de preenchimento;
  17. 17. Conclusão  Dados não-estruturados, a infraestrutura computacional disponível influenciou o tempo de execução dos algoritmos;  Ponto de partida para efetiva integração entre as bases;
  18. 18. Trabalhos Futuros  Como trabalhos futuros, criar uma base de consulta centralizada, para validação dos dados na Plataforma Lattes;  Uso pela comunidade científica e público não especializado.

×