O slideshow foi denunciado.
BIBLIOTECA DIGITAL BRASILEIRA DE 
TESES E DISSERTAÇÕES: AÇÕES PARA 
MELHORIA NA QUALIDADE DOS DADOS 
DIEGO JOSÉ MACEDO 
IN...
INTRODUÇÃO 
Biblioteca Digital Brasileira de Teses e Dissertações (BDTD) 
Integra, em um só portal de acesso aberto, os si...
BIBLIOTECA DIGITAL BRASILEIRA DE 
TESES E DISSERTAÇÕES (BDTD) 
A BDTD utiliza as tecnologias Open Archives Initiative (OAi...
PROBLEMAS 
 provedores de dados: sistemas heterogêneos que operam 
com diversos formatos de metadados; 
 Falta de normal...
OBJETIVOS 
 Apresentar os resultados de avaliação dos metadados 
descritivos da BDTD passíveis de normalização; 
 Aprese...
METODOLOGIA 
 Coleta de metadados provenientes de diversos tipos de 
sistemas de gestão de teses e dissertações, via prot...
ESTRUTURA 
7 
COLETADOR/ 
AGREGADOR 
REPOX 
Crosswalks 
Mapeamentos – 
Filtros – 
Normalização 
XSTL 
MTD2- BR 
DC 
DIM 
M...
8 
MTD2- BR 
DC 
DIM 
MARC 
XML 
Outros 
COLETADOR/ 
AGREGADOR 
REPOX 
Harvesting 
Crosswalk 
Mapeamentos 
– Filtros – 
No...
EXEMPLO MAPEAMENTO 
DE DC.TYPE 
9 
<dc:type> 
Mestre 
</ dc:type > 
< dc:type > 
Mestrado 
</dc:type > 
<dc:type > 
Disser...
EXEMPLO MAPEAMENTO 
DE DC.LANGUAGE 
10 
<dc:language> 
pt_BR 
</dc:language> 
<dc:language> 
Português 
</dc:language> 
<d...
EXEMPLO DE 
MAPEAMENTO 
Alguns casos, o 
campo dc.type não 
está preenchido. 
dc.publisher.program 
dc.publisher.departame...
EXEMPLO DE 
MAPEAMENTO 
12 
dc.publisher.cnpq 
dc.type dc.publisher.program 
XSLT
RESULTADO(S) E 
DISCUSSÃO 
 104 provedores de dados desenvolvidos com tecnologias 
diversas. Destaca-se 
13 
SISTEMA QUAN...
RESULTADO(S) E 
DISCUSSÃO 
 Interoperabilidade: sistema de coleta de diversos 
esquemas de metadados 
14 
ESQUEMA DE 
MET...
RESULTADO(S) E 
DISCUSSÃO 
 Provedores de dados são analisados separadamente; 
 Registros coletados são convertidos auto...
RESULTADO(S) E 
DISCUSSÃO 
 Mapeadores e filtros – algoritmos de normalização: 
• Padronização de campos como: idioma, ti...
RESULTADO(S) E 
DISCUSSÃO 
 Desenvolvimento de ferramentas que ajustaram os dados 
coletados; 
 O processo permitiu uma ...
CONCLUSÕES 
 Necessidade de processamento para melhoria da 
qualidade de dados em redes heterogêneas, composta 
por siste...
CONCLUSÕES 
 Infraestrutura, possibilitando uma maior 
flexibilização aos provedores de dados, mas 
também o tratamento d...
OBRIGADO! 
Diego Macêdo 
diegomacedo@ibict.br 
+55 61 3217-6241 
20
Próximos SlideShares
Carregando em…5
×

Biblioteca Digital Brasileira de Teses e Dissertações: ações para melhoria na qualidade dos dados

568 visualizações

Publicada em

Biblioteca Digital Brasileira de Teses e Dissertações: ações para melhoria na qualidade dos dados - Diego Macedo, Milton Shintaku, Tainá Assis, Washington Ribeiro, Ronnie Brito

Publicada em: Tecnologia
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Biblioteca Digital Brasileira de Teses e Dissertações: ações para melhoria na qualidade dos dados

  1. 1. BIBLIOTECA DIGITAL BRASILEIRA DE TESES E DISSERTAÇÕES: AÇÕES PARA MELHORIA NA QUALIDADE DOS DADOS DIEGO JOSÉ MACEDO INSTITUTO BRASILEIRO DE INFORMAÇÃO EM CIÊNCIA E TECNOLOGIA ( IBICT) DIEGOMACEDO@IBICT.BR MILTON SHINTAKU INSTITUTO BRASILEIRO DE INFORMAÇÃO EM CIÊNCIA E TECNOLOGIA ( IBICT) SHINTAKU@IBICT.BR TAINÁ BATISTA DE ASSIS INSTITUTO BRASILEIRO DE INFORMAÇÃO EM CIÊNCIA E TECNOLOGIA ( IBICT) TAINA@IBICT.BR WASHINGTON L. R. DE CARVALHO SEGUNDO INSTITUTO BRASILEIRO DE INFORMAÇÃO EM CIÊNCIA E TECNOLOGIA ( IBICT) WASHINGONSEGUNDO@IBICT.BR RONNIE FAGUNDES DE BRITO INSTITUTO BRASILEIRO DE INFORMAÇÃO EM CIÊNCIA E TECNOLOGIA ( IBICT) RONNIEBRITO@IBICT.BR 1
  2. 2. INTRODUÇÃO Biblioteca Digital Brasileira de Teses e Dissertações (BDTD) Integra, em um só portal de acesso aberto, os sistemas de informação de teses e dissertações existentes nas instituições de ensino e pesquisa brasileiras e por brasileiros que defenderam no exterior. 2
  3. 3. BIBLIOTECA DIGITAL BRASILEIRA DE TESES E DISSERTAÇÕES (BDTD) A BDTD utiliza as tecnologias Open Archives Initiative (OAi) e adota o modelo baseado em padrões de interoperabilidade. Processo de funcionamento da BDTD há dois atores principais: - provedores de dados: administra o depósito e a publicação expondo os metadados para a coleta automática (harvesting). - provedores de serviços: fornece serviços de informação com base nos metadados coletados junto aos provedores de dados. 3
  4. 4. PROBLEMAS  provedores de dados: sistemas heterogêneos que operam com diversos formatos de metadados;  Falta de normalização no preenchimento de campos nos metadados;  Falta de preenchimento de campos requeridos. 4
  5. 5. OBJETIVOS  Apresentar os resultados de avaliação dos metadados descritivos da BDTD passíveis de normalização;  Apresentar algoritmos desenvolvidos para melhoria da qualidade dos dados agregados. 5
  6. 6. METODOLOGIA  Coleta de metadados provenientes de diversos tipos de sistemas de gestão de teses e dissertações, via protocolo Open Archives Initiative - Protocol Metadata Harvesting (OAI-PMH).  Utilização de feramentas e técnicas para aplicação de filtros para determinar variações, erros de preenchimento e normalização de campos. 6
  7. 7. ESTRUTURA 7 COLETADOR/ AGREGADOR REPOX Crosswalks Mapeamentos – Filtros – Normalização XSTL MTD2- BR DC DIM MARC XML Outros Harvesting
  8. 8. 8 MTD2- BR DC DIM MARC XML Outros COLETADOR/ AGREGADOR REPOX Harvesting Crosswalk Mapeamentos – Filtros – Normalização XSTL Portal de Busca Consolidada Metadados normalizados Provedores de Serviços – NDLTD RCAAP LA Referencia Primo Central Metadados DC e ETD-MS normalizados ESTRUTURA
  9. 9. EXEMPLO MAPEAMENTO DE DC.TYPE 9 <dc:type> Mestre </ dc:type > < dc:type > Mestrado </dc:type > <dc:type > Dissertação </dc:type > <dc:type> master </dc:type> <dc.type> masterThesis </dc.type > XSLT Diretrizes DRIVER
  10. 10. EXEMPLO MAPEAMENTO DE DC.LANGUAGE 10 <dc:language> pt_BR </dc:language> <dc:language> Português </dc:language> <dc:language> PT </dc:language> <dc:language> por </dc:language> <dc.language> por </dc:language> Diretrizes DRIVER - ISO 639-3 XSLT
  11. 11. EXEMPLO DE MAPEAMENTO Alguns casos, o campo dc.type não está preenchido. dc.publisher.program dc.publisher.departament 11 dc.type
  12. 12. EXEMPLO DE MAPEAMENTO 12 dc.publisher.cnpq dc.type dc.publisher.program XSLT
  13. 13. RESULTADO(S) E DISCUSSÃO  104 provedores de dados desenvolvidos com tecnologias diversas. Destaca-se 13 SISTEMA QUANTIDADE TEDE 84 DSpace 15 OPAC 1 Outros 4
  14. 14. RESULTADO(S) E DISCUSSÃO  Interoperabilidade: sistema de coleta de diversos esquemas de metadados 14 ESQUEMA DE METADADOS QUANTIDADE MTD(2)-BR 92 DIM 6 RDF 5 MARCXML 1
  15. 15. RESULTADO(S) E DISCUSSÃO  Provedores de dados são analisados separadamente;  Registros coletados são convertidos automaticamente para o padrão adotado pela BDTD;  Aplicação de Crosswalks;  XSLT (Extensible Stylesheet Language Transformations);  Viabiliza-se maior flexibilidade à rede; 15
  16. 16. RESULTADO(S) E DISCUSSÃO  Mapeadores e filtros – algoritmos de normalização: • Padronização de campos como: idioma, tipo do documento, grau e instituição de defesa. • Filtragem e tratamento de campos com variação como: Grau, tal como: Mestre, mestrado, mestrado em <nome do programa>. • Instituição de defesa; • Campos como tipo de documento e idioma também sofreram transformações de conteúdo para que se alinhassem às orientações das diretrizes DRIVER. 16
  17. 17. RESULTADO(S) E DISCUSSÃO  Desenvolvimento de ferramentas que ajustaram os dados coletados;  O processo permitiu uma melhor acurácia dos dados coletados;  Assim, completou todo ciclo que visa alcançar refinamento da qualidade dos dados na base consolidada. 17
  18. 18. CONCLUSÕES  Necessidade de processamento para melhoria da qualidade de dados em redes heterogêneas, composta por sistemas que operam com formatos de metadados diferentes.  O processo adotado na presente pesquisa encontra apoio no estudo de Stupmf e McDonnell (2004), que indica como possível solução para problemas de acurácia de metadados o uso de ferramentas automatizadas. 18
  19. 19. CONCLUSÕES  Infraestrutura, possibilitando uma maior flexibilização aos provedores de dados, mas também o tratamento da informação.  Com isso, torna-se mais eficaz a melhoria da disseminação da informação. 19
  20. 20. OBRIGADO! Diego Macêdo diegomacedo@ibict.br +55 61 3217-6241 20

×