SlideShare uma empresa Scribd logo
1 de 19
Estudo para integração entre a Plataforma
Lattes, a Biblioteca Digital Brasileira de
Teses e Dissertações (BDTD) e o Banco de
Teses e Dissertações da Capes
Gabriel Lima Gomes – IBICT
Washington L. R. de Carvalho Segundo - IBICT
O que é?
 BDTD (Biblioteca Digital de Teses e Dissertações)
 Criada em 2002;
 Mantida e coordenada pelo Instituto Brasileiro de Informação em Ciência
e Tecnologia (IBICT);
 Congrega sistema de informação brasileiros de acesso aberto;
 Teses e dissertações;
O que é?
 Plataforma Lattes
 Surgiu em 1999 por um projeto do Conselho Nacional de
Desenvolvimento Científico e Tecnológico (CNPq);
 Implementada por grupo universitários da Universidade
Federal de Santa Catarina (UFSC) e a Universidade
Federal de Pernambuco (UFPE), com contribuições da
Multsoft;
 Base nacional de currículos de pesquisadores do Brasil;
O que é?
 Banco de Teses e Dissertações da CAPES
 Criado em 2002 pela Coordenação de Aperfeiçoamento
de Pessoal de Nível Superior (CAPES);
 Armazena resumos de teses e dissertações dos programas
de pós-graduação do país;
Objetivo
Justificativa
 Uso da BDTD tem sido extenso no Brasil e em países de língua
portuguesa
 90% dos acessos tem origem em território nacional;
 3,25% dos acessos tem origem de Portugal;
 2% dos acessos tem origem de Moçambique;
 0,78% dos acessos tem origem de Angola;
 Banco da CAPES é a iniciativa nacional que reúne o maior número de
resumos de teses e dissertações;
 BDTD pode contribuir, pois agrega e viabiliza o acesso aberto a teses
e dissertações;
 Plataforma Lattes poderá dar mais qualidade e detalhes as teses e
dissertações disponibilizadas em acesso aberto;
Metodologia
 Ferramentas
Metodologia
 Processo
Pré-processamentoColeta de dados Integração
Metodologia
Metodologia
 Pré-processamento:
 Limpeza dos dados: tolower; remoção de caracteres
especiais; remoção de números; remoção de espaços
duplicados;
 Campo autor: normalização dos nomes para forma direta;
Remoção do nome da instituição;
 Criação de um vocabulário de instituições e suas variações
em Json;
Metodologia
 Pré-processamento:
 Criação do campo “sigla instituição” na base Lattes;
 Eliminação de de-duplicação nas bases: Similaridade
Levenshtein e Jaro;
BDTD: 6500;
CAPES: 2700;
Lattes: 400 mil.
Metodologia
 Integração:
 Integração BDTD - CAPES
I5, 8Gb, Linux;
Levenstein com valor < 3, aproximadamente 57h, + 1
milhão de registros;
Jaro > 85%, aproximadamente 60h, + 1 milhão de
registros;
Metodologia
 Integração
Integração BDTD/CAPES – Lattes
Intel Xeon, 12Gb, Linux;
Jaro > 75%;
Aproximadamente 40h;
+ 1.500.000 registros;
Resultados
Lattes
BDTD LATTES
Resultados
 1.745.138 registros;
 412.487 Teses e 1.332.651 Dissertações;
 498 instituições brasileiras;
 Datas de defesa que vão de 1950 à 2017;
Desafios
 Etapas de limpeza e normalização; variação de
erros de preenchimento;
Conclusão
 Dados não-estruturados, a infraestrutura computacional
disponível influenciou o tempo de execução dos
algoritmos;
 Ponto de partida para efetiva integração entre as bases;
Trabalhos Futuros
 Como trabalhos futuros, criar uma base de consulta
centralizada, para validação dos dados na Plataforma
Lattes;
 Uso pela comunidade científica e público não
especializado.
Integração entre BDTD, Lattes e Banco de Teses da CAPES

Mais conteúdo relacionado

Mais procurados

Reutilização de dados catalográficos: um olhar sobre o uso estratégico das te...
Reutilização de dados catalográficos: um olhar sobre o uso estratégico das te...Reutilização de dados catalográficos: um olhar sobre o uso estratégico das te...
Reutilização de dados catalográficos: um olhar sobre o uso estratégico das te...Fabrício Silva Assumpção
 
Gestão de dados para periódicos científicos
Gestão de dados para periódicos científicosGestão de dados para periódicos científicos
Gestão de dados para periódicos científicosPortal de Periódicos UFSC
 
Repositorio Institucional de FIOCRUZ
Repositorio Institucional de FIOCRUZRepositorio Institucional de FIOCRUZ
Repositorio Institucional de FIOCRUZComunidadRedDes
 
Oficina online para compartilhamento de experiências no uso do DSPACE: BIREME
Oficina online para compartilhamento de experiências no uso do DSPACE: BIREMEOficina online para compartilhamento de experiências no uso do DSPACE: BIREME
Oficina online para compartilhamento de experiências no uso do DSPACE: BIREMEComunidadRedDes
 
Relatório sobre Serviços de Dados Científicos no RCAAP: Introdução (Jornadas ...
Relatório sobre Serviços de Dados Científicos no RCAAP: Introdução (Jornadas ...Relatório sobre Serviços de Dados Científicos no RCAAP: Introdução (Jornadas ...
Relatório sobre Serviços de Dados Científicos no RCAAP: Introdução (Jornadas ...Pedro Príncipe
 
Gestão de Dados Científicos: desafios e estratégias nas Instituições #ConfOA2015
Gestão de Dados Científicos: desafios e estratégias nas Instituições #ConfOA2015Gestão de Dados Científicos: desafios e estratégias nas Instituições #ConfOA2015
Gestão de Dados Científicos: desafios e estratégias nas Instituições #ConfOA2015Pedro Príncipe
 
Conversão de registros em XML para MARC 21: um modelo baseado em XSLT (ENANCI...
Conversão de registros em XML para MARC 21:um modelo baseado em XSLT (ENANCI...Conversão de registros em XML para MARC 21:um modelo baseado em XSLT (ENANCI...
Conversão de registros em XML para MARC 21: um modelo baseado em XSLT (ENANCI...Fabrício Silva Assumpção
 
RDA - Resource Description and Access (UFC, Fortaleza, 24 out 2014)
RDA - Resource Description and Access (UFC, Fortaleza, 24 out 2014)RDA - Resource Description and Access (UFC, Fortaleza, 24 out 2014)
RDA - Resource Description and Access (UFC, Fortaleza, 24 out 2014)Fabrício Silva Assumpção
 
Indexação de dados científicos: uma análise a partir das políticas da Rede de...
Indexação de dados científicos: uma análise a partir das políticas da Rede de...Indexação de dados científicos: uma análise a partir das políticas da Rede de...
Indexação de dados científicos: uma análise a partir das políticas da Rede de...Projeto RCAAP
 
Repositórios institucionais como ambientes de acesso aberto nas universidades...
Repositórios institucionais como ambientes de acesso aberto nas universidades...Repositórios institucionais como ambientes de acesso aberto nas universidades...
Repositórios institucionais como ambientes de acesso aberto nas universidades...Fabrício Silva Assumpção
 
CATALOGAÇÃO DE RECURSOS BIBLIOGRÁFICOS DIGITAIS NO PADRÃO DE METADADOS DUBLIN...
CATALOGAÇÃO DE RECURSOS BIBLIOGRÁFICOS DIGITAIS NO PADRÃO DE METADADOS DUBLIN...CATALOGAÇÃO DE RECURSOS BIBLIOGRÁFICOS DIGITAIS NO PADRÃO DE METADADOS DUBLIN...
CATALOGAÇÃO DE RECURSOS BIBLIOGRÁFICOS DIGITAIS NO PADRÃO DE METADADOS DUBLIN...Felipe Arakaki
 
Base De Dados Documentais
Base De Dados DocumentaisBase De Dados Documentais
Base De Dados Documentaisjosecosme
 
A conversão de registros na implantação de repositórios institucionais: o ca...
A conversão de registros na implantação de repositórios institucionais: o ca...A conversão de registros na implantação de repositórios institucionais: o ca...
A conversão de registros na implantação de repositórios institucionais: o ca...Fabrício Silva Assumpção
 

Mais procurados (20)

Rumo ao futuro: a nova geração de repositórios
Rumo ao futuro: a nova geração de repositóriosRumo ao futuro: a nova geração de repositórios
Rumo ao futuro: a nova geração de repositórios
 
Reutilização de dados catalográficos: um olhar sobre o uso estratégico das te...
Reutilização de dados catalográficos: um olhar sobre o uso estratégico das te...Reutilização de dados catalográficos: um olhar sobre o uso estratégico das te...
Reutilização de dados catalográficos: um olhar sobre o uso estratégico das te...
 
Gestão de Dados de Pesquisa: os princípios FAIR e as estratégias institucionais
Gestão de Dados de Pesquisa: os princípios FAIR e as estratégias institucionaisGestão de Dados de Pesquisa: os princípios FAIR e as estratégias institucionais
Gestão de Dados de Pesquisa: os princípios FAIR e as estratégias institucionais
 
Gestão de Dados: Sobreposições ou Convergências entre Infraestruturas?
Gestão de Dados: Sobreposições ou Convergências entre Infraestruturas?Gestão de Dados: Sobreposições ou Convergências entre Infraestruturas?
Gestão de Dados: Sobreposições ou Convergências entre Infraestruturas?
 
Gestão de dados para periódicos científicos
Gestão de dados para periódicos científicosGestão de dados para periódicos científicos
Gestão de dados para periódicos científicos
 
Repositorio Institucional de FIOCRUZ
Repositorio Institucional de FIOCRUZRepositorio Institucional de FIOCRUZ
Repositorio Institucional de FIOCRUZ
 
Oficina online para compartilhamento de experiências no uso do DSPACE: BIREME
Oficina online para compartilhamento de experiências no uso do DSPACE: BIREMEOficina online para compartilhamento de experiências no uso do DSPACE: BIREME
Oficina online para compartilhamento de experiências no uso do DSPACE: BIREME
 
Relatório sobre Serviços de Dados Científicos no RCAAP: Introdução (Jornadas ...
Relatório sobre Serviços de Dados Científicos no RCAAP: Introdução (Jornadas ...Relatório sobre Serviços de Dados Científicos no RCAAP: Introdução (Jornadas ...
Relatório sobre Serviços de Dados Científicos no RCAAP: Introdução (Jornadas ...
 
Dados de pesquisa: compartilhamento e publicação
Dados de pesquisa: compartilhamento e publicaçãoDados de pesquisa: compartilhamento e publicação
Dados de pesquisa: compartilhamento e publicação
 
Integrar uma Rede de Repositórios no Ecossistema de Gestão de Ciência Naciona...
Integrar uma Rede de Repositórios no Ecossistema de Gestão de Ciência Naciona...Integrar uma Rede de Repositórios no Ecossistema de Gestão de Ciência Naciona...
Integrar uma Rede de Repositórios no Ecossistema de Gestão de Ciência Naciona...
 
Gestão de Dados Científicos: desafios e estratégias nas Instituições #ConfOA2015
Gestão de Dados Científicos: desafios e estratégias nas Instituições #ConfOA2015Gestão de Dados Científicos: desafios e estratégias nas Instituições #ConfOA2015
Gestão de Dados Científicos: desafios e estratégias nas Instituições #ConfOA2015
 
Conversão de registros em XML para MARC 21: um modelo baseado em XSLT (ENANCI...
Conversão de registros em XML para MARC 21:um modelo baseado em XSLT (ENANCI...Conversão de registros em XML para MARC 21:um modelo baseado em XSLT (ENANCI...
Conversão de registros em XML para MARC 21: um modelo baseado em XSLT (ENANCI...
 
RDA - Resource Description and Access (UFC, Fortaleza, 24 out 2014)
RDA - Resource Description and Access (UFC, Fortaleza, 24 out 2014)RDA - Resource Description and Access (UFC, Fortaleza, 24 out 2014)
RDA - Resource Description and Access (UFC, Fortaleza, 24 out 2014)
 
Indexação de dados científicos: uma análise a partir das políticas da Rede de...
Indexação de dados científicos: uma análise a partir das políticas da Rede de...Indexação de dados científicos: uma análise a partir das políticas da Rede de...
Indexação de dados científicos: uma análise a partir das políticas da Rede de...
 
Repositórios institucionais como ambientes de acesso aberto nas universidades...
Repositórios institucionais como ambientes de acesso aberto nas universidades...Repositórios institucionais como ambientes de acesso aberto nas universidades...
Repositórios institucionais como ambientes de acesso aberto nas universidades...
 
CATALOGAÇÃO DE RECURSOS BIBLIOGRÁFICOS DIGITAIS NO PADRÃO DE METADADOS DUBLIN...
CATALOGAÇÃO DE RECURSOS BIBLIOGRÁFICOS DIGITAIS NO PADRÃO DE METADADOS DUBLIN...CATALOGAÇÃO DE RECURSOS BIBLIOGRÁFICOS DIGITAIS NO PADRÃO DE METADADOS DUBLIN...
CATALOGAÇÃO DE RECURSOS BIBLIOGRÁFICOS DIGITAIS NO PADRÃO DE METADADOS DUBLIN...
 
RDA Element Sets e RDA Value Vocabularies
RDA Element Sets e RDA Value VocabulariesRDA Element Sets e RDA Value Vocabularies
RDA Element Sets e RDA Value Vocabularies
 
Tudo sobre o Acesso Aberto no IPV: as infraestruturas, os serviços e os requi...
Tudo sobre o Acesso Aberto no IPV: as infraestruturas, os serviços e os requi...Tudo sobre o Acesso Aberto no IPV: as infraestruturas, os serviços e os requi...
Tudo sobre o Acesso Aberto no IPV: as infraestruturas, os serviços e os requi...
 
Base De Dados Documentais
Base De Dados DocumentaisBase De Dados Documentais
Base De Dados Documentais
 
A conversão de registros na implantação de repositórios institucionais: o ca...
A conversão de registros na implantação de repositórios institucionais: o ca...A conversão de registros na implantação de repositórios institucionais: o ca...
A conversão de registros na implantação de repositórios institucionais: o ca...
 

Semelhante a Integração entre BDTD, Lattes e Banco de Teses da CAPES

Pesquisa sobre a biblioteca digital brasileira de teses
Pesquisa sobre a biblioteca digital brasileira de tesesPesquisa sobre a biblioteca digital brasileira de teses
Pesquisa sobre a biblioteca digital brasileira de tesesGrazielaSamara
 
Análise e Implantação de Repositório Digital Utilizando Software Livre DSPACE
Análise e Implantação de Repositório Digital Utilizando Software Livre DSPACEAnálise e Implantação de Repositório Digital Utilizando Software Livre DSPACE
Análise e Implantação de Repositório Digital Utilizando Software Livre DSPACEElvis Fusco
 
Data RepositóriUM: projeto de implementação do repositório de dados para a Un...
Data RepositóriUM: projeto de implementação do repositório de dados para a Un...Data RepositóriUM: projeto de implementação do repositório de dados para a Un...
Data RepositóriUM: projeto de implementação do repositório de dados para a Un...Pedro Príncipe
 
Repositórios de produção científica e seu potencial nos sistemas de avaliação
Repositórios de produção científica e seu potencial nos sistemas de avaliaçãoRepositórios de produção científica e seu potencial nos sistemas de avaliação
Repositórios de produção científica e seu potencial nos sistemas de avaliaçãoRoberto C. S. Pacheco
 
23 coisas: Bibliotecas para a Gestão de Dados de Investigação (Webinar BAD do...
23 coisas: Bibliotecas para a Gestão de Dados de Investigação (Webinar BAD do...23 coisas: Bibliotecas para a Gestão de Dados de Investigação (Webinar BAD do...
23 coisas: Bibliotecas para a Gestão de Dados de Investigação (Webinar BAD do...Pedro Príncipe
 
Projeto de depuração de metadados do Repositório Institucional da Produção Ci...
Projeto de depuração de metadados do Repositório Institucional da Produção Ci...Projeto de depuração de metadados do Repositório Institucional da Produção Ci...
Projeto de depuração de metadados do Repositório Institucional da Produção Ci...Projeto RCAAP
 
Recursos didáticos: produzir, encontrar, remixar, organizar, catalogar
Recursos didáticos: produzir, encontrar, remixar, organizar, catalogarRecursos didáticos: produzir, encontrar, remixar, organizar, catalogar
Recursos didáticos: produzir, encontrar, remixar, organizar, catalogarBianca Santana
 
Portal de Busca Integrada USP
Portal de Busca Integrada USPPortal de Busca Integrada USP
Portal de Busca Integrada USPAnderson Santana
 
Integrar a rede de repósitorios RCAAP no ecossistema de gestão de ciência - P...
Integrar a rede de repósitorios RCAAP no ecossistema de gestão de ciência - P...Integrar a rede de repósitorios RCAAP no ecossistema de gestão de ciência - P...
Integrar a rede de repósitorios RCAAP no ecossistema de gestão de ciência - P...Projeto RCAAP
 
SEER e DSpace na BRCdigit@l Interativa do campus de Rio Claro, UNESP, SP, Brasil
SEER e DSpace na BRCdigit@l Interativa do campus de Rio Claro, UNESP, SP, BrasilSEER e DSpace na BRCdigit@l Interativa do campus de Rio Claro, UNESP, SP, Brasil
SEER e DSpace na BRCdigit@l Interativa do campus de Rio Claro, UNESP, SP, BrasilSuelybcs .
 
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...Christiano Avila
 
Dataverse cariniana 2017
Dataverse cariniana 2017Dataverse cariniana 2017
Dataverse cariniana 2017Cariniana Rede
 
Estudo Prospectivo sobre a implementação do DOI em Portugal - Jornadas FCCN 2016
Estudo Prospectivo sobre a implementação do DOI em Portugal - Jornadas FCCN 2016Estudo Prospectivo sobre a implementação do DOI em Portugal - Jornadas FCCN 2016
Estudo Prospectivo sobre a implementação do DOI em Portugal - Jornadas FCCN 2016Pedro Príncipe
 

Semelhante a Integração entre BDTD, Lattes e Banco de Teses da CAPES (20)

Pesquisa sobre a biblioteca digital brasileira de teses
Pesquisa sobre a biblioteca digital brasileira de tesesPesquisa sobre a biblioteca digital brasileira de teses
Pesquisa sobre a biblioteca digital brasileira de teses
 
Digital Object Identifier (DOI) viabilizando a via verde
Digital Object Identifier (DOI) viabilizando a via verdeDigital Object Identifier (DOI) viabilizando a via verde
Digital Object Identifier (DOI) viabilizando a via verde
 
DOI e SEER Persistência
DOI e SEER PersistênciaDOI e SEER Persistência
DOI e SEER Persistência
 
DOI e SEER Persistência
DOI e SEER PersistênciaDOI e SEER Persistência
DOI e SEER Persistência
 
ReBEc 2.0 - rumo a uma nova plataforma para dados científicos
ReBEc 2.0 - rumo a uma nova plataforma para dados científicosReBEc 2.0 - rumo a uma nova plataforma para dados científicos
ReBEc 2.0 - rumo a uma nova plataforma para dados científicos
 
Análise e Implantação de Repositório Digital Utilizando Software Livre DSPACE
Análise e Implantação de Repositório Digital Utilizando Software Livre DSPACEAnálise e Implantação de Repositório Digital Utilizando Software Livre DSPACE
Análise e Implantação de Repositório Digital Utilizando Software Livre DSPACE
 
Data RepositóriUM: projeto de implementação do repositório de dados para a Un...
Data RepositóriUM: projeto de implementação do repositório de dados para a Un...Data RepositóriUM: projeto de implementação do repositório de dados para a Un...
Data RepositóriUM: projeto de implementação do repositório de dados para a Un...
 
Software DSpace 2 de 4
Software DSpace 2 de 4Software DSpace 2 de 4
Software DSpace 2 de 4
 
Repositórios de produção científica e seu potencial nos sistemas de avaliação
Repositórios de produção científica e seu potencial nos sistemas de avaliaçãoRepositórios de produção científica e seu potencial nos sistemas de avaliação
Repositórios de produção científica e seu potencial nos sistemas de avaliação
 
23 coisas: Bibliotecas para a Gestão de Dados de Investigação (Webinar BAD do...
23 coisas: Bibliotecas para a Gestão de Dados de Investigação (Webinar BAD do...23 coisas: Bibliotecas para a Gestão de Dados de Investigação (Webinar BAD do...
23 coisas: Bibliotecas para a Gestão de Dados de Investigação (Webinar BAD do...
 
Projeto de depuração de metadados do Repositório Institucional da Produção Ci...
Projeto de depuração de metadados do Repositório Institucional da Produção Ci...Projeto de depuração de metadados do Repositório Institucional da Produção Ci...
Projeto de depuração de metadados do Repositório Institucional da Produção Ci...
 
Recursos didáticos: produzir, encontrar, remixar, organizar, catalogar
Recursos didáticos: produzir, encontrar, remixar, organizar, catalogarRecursos didáticos: produzir, encontrar, remixar, organizar, catalogar
Recursos didáticos: produzir, encontrar, remixar, organizar, catalogar
 
Portal de Busca Integrada USP
Portal de Busca Integrada USPPortal de Busca Integrada USP
Portal de Busca Integrada USP
 
Integrar a rede de repósitorios RCAAP no ecossistema de gestão de ciência - P...
Integrar a rede de repósitorios RCAAP no ecossistema de gestão de ciência - P...Integrar a rede de repósitorios RCAAP no ecossistema de gestão de ciência - P...
Integrar a rede de repósitorios RCAAP no ecossistema de gestão de ciência - P...
 
SEER e DSpace na BRCdigit@l Interativa do campus de Rio Claro, UNESP, SP, Brasil
SEER e DSpace na BRCdigit@l Interativa do campus de Rio Claro, UNESP, SP, BrasilSEER e DSpace na BRCdigit@l Interativa do campus de Rio Claro, UNESP, SP, Brasil
SEER e DSpace na BRCdigit@l Interativa do campus de Rio Claro, UNESP, SP, Brasil
 
Esquemas de metadados utilizados por repositórios digitais científicos latino...
Esquemas de metadados utilizados por repositórios digitais científicos latino...Esquemas de metadados utilizados por repositórios digitais científicos latino...
Esquemas de metadados utilizados por repositórios digitais científicos latino...
 
Biblioteca Digital Brasileira de Teses e Dissertações: ações para melhoria na...
Biblioteca Digital Brasileira de Teses e Dissertações: ações para melhoria na...Biblioteca Digital Brasileira de Teses e Dissertações: ações para melhoria na...
Biblioteca Digital Brasileira de Teses e Dissertações: ações para melhoria na...
 
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...
 
Dataverse cariniana 2017
Dataverse cariniana 2017Dataverse cariniana 2017
Dataverse cariniana 2017
 
Estudo Prospectivo sobre a implementação do DOI em Portugal - Jornadas FCCN 2016
Estudo Prospectivo sobre a implementação do DOI em Portugal - Jornadas FCCN 2016Estudo Prospectivo sobre a implementação do DOI em Portugal - Jornadas FCCN 2016
Estudo Prospectivo sobre a implementação do DOI em Portugal - Jornadas FCCN 2016
 

Mais de Conferência Luso-Brasileira de Ciência Aberta

Café com Ciência – divulgação das publicações técnico-científicas em acesso a...
Café com Ciência – divulgação das publicações técnico-científicas em acesso a...Café com Ciência – divulgação das publicações técnico-científicas em acesso a...
Café com Ciência – divulgação das publicações técnico-científicas em acesso a...Conferência Luso-Brasileira de Ciência Aberta
 

Mais de Conferência Luso-Brasileira de Ciência Aberta (20)

Citações e métricas complementares: um estudo da sua correlação em artigos ci...
Citações e métricas complementares: um estudo da sua correlação em artigos ci...Citações e métricas complementares: um estudo da sua correlação em artigos ci...
Citações e métricas complementares: um estudo da sua correlação em artigos ci...
 
Pré-Workshop: Formação em Edição Eletrónica
Pré-Workshop: Formação em Edição EletrónicaPré-Workshop: Formação em Edição Eletrónica
Pré-Workshop: Formação em Edição Eletrónica
 
Análise relacional entre princípios FAIR de gestão de dados de pesquisa e nor...
Análise relacional entre princípios FAIR de gestão de dados de pesquisa e nor...Análise relacional entre princípios FAIR de gestão de dados de pesquisa e nor...
Análise relacional entre princípios FAIR de gestão de dados de pesquisa e nor...
 
10 anos RCAAP - ConfOA
10 anos RCAAP - ConfOA10 anos RCAAP - ConfOA
10 anos RCAAP - ConfOA
 
Programa de formação modular sobre Ciência Aberta
Programa de formação modular sobre Ciência AbertaPrograma de formação modular sobre Ciência Aberta
Programa de formação modular sobre Ciência Aberta
 
Análise da Produção Científica Brasileira em Periódicos de Acesso Aberto
Análise da Produção Científica Brasileira em Periódicos de Acesso AbertoAnálise da Produção Científica Brasileira em Periódicos de Acesso Aberto
Análise da Produção Científica Brasileira em Periódicos de Acesso Aberto
 
Acesso aberto como ferramenta para o empoderamento do paciente
Acesso aberto como ferramenta para o empoderamento do pacienteAcesso aberto como ferramenta para o empoderamento do paciente
Acesso aberto como ferramenta para o empoderamento do paciente
 
Livros eletrônicos, políticas de licenciamento e acesso aberto - relações con...
Livros eletrônicos, políticas de licenciamento e acesso aberto - relações con...Livros eletrônicos, políticas de licenciamento e acesso aberto - relações con...
Livros eletrônicos, políticas de licenciamento e acesso aberto - relações con...
 
Ciência aberta e revisão por pares aberta: aspectos e desafios da participaçã...
Ciência aberta e revisão por pares aberta: aspectos e desafios da participaçã...Ciência aberta e revisão por pares aberta: aspectos e desafios da participaçã...
Ciência aberta e revisão por pares aberta: aspectos e desafios da participaçã...
 
Melhorando a citabilidade de programas de computador para pesquisa com o Cita...
Melhorando a citabilidade de programas de computador para pesquisa com o Cita...Melhorando a citabilidade de programas de computador para pesquisa com o Cita...
Melhorando a citabilidade de programas de computador para pesquisa com o Cita...
 
Técnicas de Search Engine Optimization (SEO) aplicadas no site da Biblioteca ...
Técnicas de Search Engine Optimization (SEO) aplicadas no site da Biblioteca ...Técnicas de Search Engine Optimization (SEO) aplicadas no site da Biblioteca ...
Técnicas de Search Engine Optimization (SEO) aplicadas no site da Biblioteca ...
 
Café com Ciência – divulgação das publicações técnico-científicas em acesso a...
Café com Ciência – divulgação das publicações técnico-científicas em acesso a...Café com Ciência – divulgação das publicações técnico-científicas em acesso a...
Café com Ciência – divulgação das publicações técnico-científicas em acesso a...
 
Serviço Nacional de Registo de Identificadores DOI
Serviço Nacional de Registo de Identificadores DOIServiço Nacional de Registo de Identificadores DOI
Serviço Nacional de Registo de Identificadores DOI
 
Recursos educacionais abertos na Universidade Aberta. A rede como estratégia ...
Recursos educacionais abertos na Universidade Aberta. A rede como estratégia ...Recursos educacionais abertos na Universidade Aberta. A rede como estratégia ...
Recursos educacionais abertos na Universidade Aberta. A rede como estratégia ...
 
Infraestrutura OpenAIRE: desenvolvimentos para o fortalecimento da Ciência Ab...
Infraestrutura OpenAIRE: desenvolvimentos para o fortalecimento da Ciência Ab...Infraestrutura OpenAIRE: desenvolvimentos para o fortalecimento da Ciência Ab...
Infraestrutura OpenAIRE: desenvolvimentos para o fortalecimento da Ciência Ab...
 
Preservação digital, gestão de dados de pesquisa e biodversidade
Preservação digital, gestão de dados de pesquisa e biodversidadePreservação digital, gestão de dados de pesquisa e biodversidade
Preservação digital, gestão de dados de pesquisa e biodversidade
 
Dados governamentais na perspectiva da Ciência Aberta: potencialidades e desa...
Dados governamentais na perspectiva da Ciência Aberta: potencialidades e desa...Dados governamentais na perspectiva da Ciência Aberta: potencialidades e desa...
Dados governamentais na perspectiva da Ciência Aberta: potencialidades e desa...
 
Do acesso à informação aos Dados Parlamentares Abertos em Portugal
Do acesso à informação aos Dados Parlamentares Abertos em PortugalDo acesso à informação aos Dados Parlamentares Abertos em Portugal
Do acesso à informação aos Dados Parlamentares Abertos em Portugal
 
Transparência e Dados Abertos do Recife: Uma Estratégia Bem Sucedida de Publi...
Transparência e Dados Abertos do Recife: Uma Estratégia Bem Sucedida de Publi...Transparência e Dados Abertos do Recife: Uma Estratégia Bem Sucedida de Publi...
Transparência e Dados Abertos do Recife: Uma Estratégia Bem Sucedida de Publi...
 
Revistas científicas brasileiras de acesso aberto: qualidade do ponto de vist...
Revistas científicas brasileiras de acesso aberto: qualidade do ponto de vist...Revistas científicas brasileiras de acesso aberto: qualidade do ponto de vist...
Revistas científicas brasileiras de acesso aberto: qualidade do ponto de vist...
 

Integração entre BDTD, Lattes e Banco de Teses da CAPES

  • 1. Estudo para integração entre a Plataforma Lattes, a Biblioteca Digital Brasileira de Teses e Dissertações (BDTD) e o Banco de Teses e Dissertações da Capes Gabriel Lima Gomes – IBICT Washington L. R. de Carvalho Segundo - IBICT
  • 2. O que é?  BDTD (Biblioteca Digital de Teses e Dissertações)  Criada em 2002;  Mantida e coordenada pelo Instituto Brasileiro de Informação em Ciência e Tecnologia (IBICT);  Congrega sistema de informação brasileiros de acesso aberto;  Teses e dissertações;
  • 3. O que é?  Plataforma Lattes  Surgiu em 1999 por um projeto do Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq);  Implementada por grupo universitários da Universidade Federal de Santa Catarina (UFSC) e a Universidade Federal de Pernambuco (UFPE), com contribuições da Multsoft;  Base nacional de currículos de pesquisadores do Brasil;
  • 4. O que é?  Banco de Teses e Dissertações da CAPES  Criado em 2002 pela Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES);  Armazena resumos de teses e dissertações dos programas de pós-graduação do país;
  • 6. Justificativa  Uso da BDTD tem sido extenso no Brasil e em países de língua portuguesa  90% dos acessos tem origem em território nacional;  3,25% dos acessos tem origem de Portugal;  2% dos acessos tem origem de Moçambique;  0,78% dos acessos tem origem de Angola;  Banco da CAPES é a iniciativa nacional que reúne o maior número de resumos de teses e dissertações;  BDTD pode contribuir, pois agrega e viabiliza o acesso aberto a teses e dissertações;  Plataforma Lattes poderá dar mais qualidade e detalhes as teses e dissertações disponibilizadas em acesso aberto;
  • 10. Metodologia  Pré-processamento:  Limpeza dos dados: tolower; remoção de caracteres especiais; remoção de números; remoção de espaços duplicados;  Campo autor: normalização dos nomes para forma direta; Remoção do nome da instituição;  Criação de um vocabulário de instituições e suas variações em Json;
  • 11. Metodologia  Pré-processamento:  Criação do campo “sigla instituição” na base Lattes;  Eliminação de de-duplicação nas bases: Similaridade Levenshtein e Jaro; BDTD: 6500; CAPES: 2700; Lattes: 400 mil.
  • 12. Metodologia  Integração:  Integração BDTD - CAPES I5, 8Gb, Linux; Levenstein com valor < 3, aproximadamente 57h, + 1 milhão de registros; Jaro > 85%, aproximadamente 60h, + 1 milhão de registros;
  • 13. Metodologia  Integração Integração BDTD/CAPES – Lattes Intel Xeon, 12Gb, Linux; Jaro > 75%; Aproximadamente 40h; + 1.500.000 registros;
  • 15. Resultados  1.745.138 registros;  412.487 Teses e 1.332.651 Dissertações;  498 instituições brasileiras;  Datas de defesa que vão de 1950 à 2017;
  • 16. Desafios  Etapas de limpeza e normalização; variação de erros de preenchimento;
  • 17. Conclusão  Dados não-estruturados, a infraestrutura computacional disponível influenciou o tempo de execução dos algoritmos;  Ponto de partida para efetiva integração entre as bases;
  • 18. Trabalhos Futuros  Como trabalhos futuros, criar uma base de consulta centralizada, para validação dos dados na Plataforma Lattes;  Uso pela comunidade científica e público não especializado.