SlideShare uma empresa Scribd logo
1 de 59
Preservação digital de teses e
dissertações
Experiência do repositório cooperativo TDX
Ricard de la Vega
Computing and Applications Manager
Consorci de Serveis Universitaris de Catalunya (CSUC)
10º debate
Grupo de Pesquisa Dríade
Agenda
1. Introdução (CSUC)
2. Repositórios de cooperação
3. Repositório de teses digitais (TDX)
4. Preservação do TDX
• Generalitat de Catalunya
• Universitat de Barcelona (UB)
• Universitat Autònoma de Barcelona (UAB)
• Universitat Politècnica de Catalunya (UPC)
• Universitat Pompeu Fabra (UPF)
• Universitat de Girona (UdG)
• Universitat Rovira i Virgili (URV)
• Universitat de Lleida (UdL)
• Universitat Oberta de Catalunya (UOC)
• Universitat Ramon Llull (URL)
• Universitat de Vic (UVic)
• Gestão de infraestruturas e serviços
cooperativos para as universidades e lá
investigação da Catalunha
• Fusão de um consórcio TIC e um bibliotecário
Consórcio de Serviços Universitários de
Catalunha (CSUC)
Nossos serviços
Agenda
1. Introdução (CSUC)
2. Repositórios de cooperação
3. Repositório de teses digitais (TDX)
4. Preservação do TDX
Towards a European e-Infrastructure for e-Science Digital Repositories. 7th e-Concentration Meeting, Brussels, 12-14th October, 2009
Repositórios de cooperação
TDX RECERCAT RACO PADICAT
RECYT MDC MDX PADICYT
CALAIX FILMOTECA SCIENTIA MACBA
Repositórios digitais
2001 2005 2006 2006
2006 2006 2009 2009
2010 2012 2015 2015
Quase 15 anos de repositórios…
Tese
Trabalhos de
pesquisa
Revistas Websites
Revistas
Património
colecções
Materiais
didáticos
Websites
Dept. Cultura
Património
cinematográfico
Dept. Saúde
Património
artístico
Conteúdo
Texto (PDF) Texto (PDF) Texto (PDF) WARCs
Texto (PDF) Imagem Texto (PDF) WARCs
Texto,
imagem,
audiovisual
Texto,
imagem,
audiovisual
Texto,
imagem,
audiovisual
Texto,
imagem,
audiovisual
Formatos: texto, imagem, vídeo...
DSpace DSpace OJS Heritrix, etc.
OJS CONTENTdm DSpace Heritrix, etc.
DSpace DSpace DSpace DSpace
Programas: DSpace, OJS...
Gestão de dados científicos
Grupo de trabalho per:
– Criação de uma política
– Data Management Plans
• Orientações (http://hdl.handle.net/2072/266523)
• DMP Online instância de DCC
– Repositório de dados de pesquisa
• Orientações (http://hdl.handle.net/2072/266502)
• Possível criação de um repositório cooperativo
– Piloto
Portal de pesquisa da Catalunha
Other
DRAC
Universitas XXI
GREC
SIGMA
UNEIX
Local and consortia
repositories.
Mainly DSpace
Catalan
government
DataWarehouse
PRC. Based on
Dspace-CRIS
(CINECA)
11 university CRIS
systems (from 4
different vendors)
Protocol: OAI-PMH/SWORD
Format: DC
Protocol: OAI-PMH
Format: CERIF-XML
Protocol: XLS files
Format: UNEIX defined
Portal de pesquisa da Catalunha
Agenda
1. Introdução (CSUC)
2. Repositórios de cooperação
3. Repositório de teses digitais (TDX)
4. Preservação do TDX
TDX em 2001 (80 GB, 8K access hits)
TDX em 2016 (0.6 TB, 4.5M access hits)
Estructura de TDX
Cada universidade (18):
• é uma Comunidade
• Tem licenças de
admissão de teses
• Administra sua coleção
• Personalização
• Pesquisadores frontend
Procedimentos e grupos
de trabalho comum
Universidades
Estructura de TDX
Departamentos e faculdades
Teses
Divulgação e preservação da tese
URV
UVic
UdG
UdL
UV
UJI
UM
UC
UA
UAB
UPF
UB
Arquivos
UIB
Metadados
Admissão das 18
universidades
Divulgação da tese espanholas
33
33
33
33
33
33
33
33
OAI-PMH harvester da tese das 33 universidades espanholas
CRIS
CRIS
CRIS
Mais divulgação da teses
DART
Recol
ecta
Driver
Tese europeia
Trabalhos de pesquisa
espanhol
Trabalhos de
pesquisa
europeia
…
Motores
de busca
Outros
colecionadores
Portal de pesquisa da Catalunha
CRIS
CRIS
CRIS
Agenda
1. Introdução (CSUC)
2. Repositórios de cooperação
3. Repositório de teses digitais (TDX)
4. Preservação do TDX
Long term preservation
• The e-infrastructure must ensure the long term
data access, without failure.
• To succeed, it must be taken into account:
– Replication (more than one copy)
– Media refresh
– Format migration
– Data integrity (checksums)
– Contingency and recovery plan
– Preservation plan
– ...
Hardware migrations
2001 (cpu, disk and tapes)
– HP N4000
2003 (cpu + disk)
– HP rp5430 with 2 processors, 704 GB memory
– HP EVA V.2 with 2,8 TB disk
2006 (cpu + tape)
– High availability HP cluster with 32 nodes
– Adic Scalar i2000 (from 9840 tapes to LTO3)
2009 (disk)
– NetApp FAS3170 with 60 TB disk
2012 (cpu)
– New High availability cluster
2016 (disk)
– New storage cabine
Born in a
supercomputer!
Software migrations
2001 – ETDdb from Virginia Tech
2005 – + OAI-PMH & statistics modules
2007 – + Spanish Thesis Harvester (MetaIndex
module + X-Server libraries) from Ex Libris
2011 – DSpace 1.6 from MIT & HP labs
2013 – + Drupal for news & intranet
…
2016 – DSpace 5.2
Data integrity & Format migration
• Data Integrity
–Checksums on DSpace (online version)
–Checksums on LOCKSS (dark copies)
• Format migration
–Not yet (PDF)
–But Metadata migration yes
• From HTML forms (ETDdb) to Dublin Core
(DSpace)
Replication
• On disk - Online version (1)
• One backup on the tape library (2)
• Other backup on a fireproof cabinet (3)
• Other backup on a 50 Km remote Centre (4)
• A dark copy on the MetaArchive Cooperative
– Private LOCKSS (Lots of Copies Keep Stuff Safe) Network
– 7 more copies around the world (11)
• And (possible) more copies on each University
MetaArchive Cooperative
• The Educopia Institute’s mission is
help cultural, scientific, and scholarly
institutions achieve greater impact
• Lots of Copies Keep Stuff Safe (LOCKSS)
• A private LOCKSS network (PLN)
• Centralized facilities (conspectus, svn…)
• P2P secure network of “cache” nodes
Marketing...
“With others, you
can accomplish
what you cannot
accomplish alone”
“Don’t put all
your eggs in one
basket”
Private LOCKSS Networks (PLNs)
• Alabama Digital Preservation Network (ADPN).
• CLOCKSS Archive.
• Council of Prairie and Pacific University Libraries (COPPUL)
• Data Preservation Alliance for the Social Sciences (Data-PASS)
• Digital Commons.
• Digital Federal Depository Library Program.
• CARINIANA Instituto Brasileiro de Informaçãoem Ciência e Tecnologia
• Lukll.
• MetaArchive Cooperative.
• PKP Public Knowledge Project.
• PNAS Proceedings of the National Academy of Sciences.
• Persistent Digital Archives and Library System – PeDALS.
• SAFE (SAFE Archiving FEderation).
• Synergies.
• UK LOCKSS Alliance
Fonte: www.lockss.org/community/networks
50 instituições em 3 países
Como funciona?
Arquivo escuro
Private LOCKSS network
• 7 copies with widespread geographical
distribution
• All 7 servers revisit on a regular basis to pick
up new and changed content
• Versioning (no remove changed content)
• Checksums file integrity control
Benefits
– Distributed archiving of digitals collections
across multiple geographically distributed
preservation sites
– Retrieval of contents in case of catastrophic loss
– Assistance with installation and maintenance of
the technical solution
– Reports, coordination web conference…
Responsibilities
Initially:
– Local LOCKSS installation (cache)
– Define a data preservation strategy (Data
Wrangling) for your “particular” repository
– Rules design for the other cache to harvest
your repository (Plugin)
– Enroll your collections in a central database
(Conspectus)
Responsibilities
Periodically:
– Add collections (of others) assigned centrally
– Apply firewall changes (IP active list)
– Apply updates
– Coordination with the MetaArchive staff and
others cache if a restore (for disaster) is needed
Nuestra experiencia con MetaArchive
– Fácil modelo
– Relativamente barata
– Eu comprovada (em casos reais)
– Precisamos conhecimento técnico
– É apropriado para o conteúdo bem definido
– Formato agnóstico, “solo" preserva arquivos
Bibliografia
– A Guide to Distributed Digital Preservation. K. Skinner and M. Schultz, Eds.
(Atlanta, GA: Educopia Institute, 2010).
http://metaarchive.org/sites/metaarchive.org/files/GDDP_Educopia.pdf
– Miquel Térmens: Preservación digital. Barcelona, Editorial UOC, 2014. ISBN:978-
84-9064-082-1.
– Ricard de la Vega. "Preservació digital al núvol." Item: revista de biblioteconomia i
documentació, 2013,Núm. 57 .
http://www.raco.cat/index.php/Item/article/view/269708/372314
– Huguet, Miquel ; Anglada i de Ferrer, Lluís M. ; Vega, Ricard de la. "Catalan
Policies and Experiences on Cooperative Repositories". Centre de
Supercomputació de Catalunya. 2007. http://hdl.handle.net/2072/4083
Muito obrigado!
ricard.delavega@csuc.cat
@rdelavega
https://es.linkedin.com/in/ricarddelavega
“Sometimes a
scream
is better than aManfred Eigen
www.tdx.cat
www.recercat.cat
www.raco.cat
www.raco.cat
www.raco.cat
www.padicat.cat
http://recyt.fecyt.es
http://mdc.cbuc.cat
www.mdx.cat
http://padicyt.es
Hhtp://calaix.gencat.cat
http:://repositori.filmoteca.cat
http://scientiasalut.gencat.cat
Macba!
http://repositori.macba.cat

Mais conteúdo relacionado

Semelhante a Preservação digital teses TDX

Apresentação cariniana jbb-2014
Apresentação cariniana jbb-2014Apresentação cariniana jbb-2014
Apresentação cariniana jbb-2014Cariniana Rede
 
Apresentação Rede Cariniana Histórico
Apresentação Rede Cariniana HistóricoApresentação Rede Cariniana Histórico
Apresentação Rede Cariniana HistóricoCariniana Rede
 
Padicat: O archivo da web da Catalunha
Padicat: O archivo da web da CatalunhaPadicat: O archivo da web da Catalunha
Padicat: O archivo da web da CatalunhaRicard de la Vega
 
Relatório Cariniana - outubro 2014
Relatório Cariniana - outubro 2014Relatório Cariniana - outubro 2014
Relatório Cariniana - outubro 2014Cariniana Rede
 
Apresentação cariniana rbsp-2014
Apresentação cariniana rbsp-2014Apresentação cariniana rbsp-2014
Apresentação cariniana rbsp-2014Cariniana Rede
 
3º Apresentação Intercalar
3º Apresentação Intercalar3º Apresentação Intercalar
3º Apresentação IntercalarGrupo3ProjBliblio
 
Cariniana 2016 preservando dados de pesquisa
Cariniana 2016   preservando dados de pesquisaCariniana 2016   preservando dados de pesquisa
Cariniana 2016 preservando dados de pesquisaCariniana Rede
 
Acesso livre e Comunicação Científica: Intersecções
Acesso livre e Comunicação Científica: IntersecçõesAcesso livre e Comunicação Científica: Intersecções
Acesso livre e Comunicação Científica: IntersecçõesMiguel Angel Mardero Arellano
 
Os novos desafios para a implantação de programas de gestão arquivística de d...
Os novos desafios para a implantação de programas de gestão arquivística de d...Os novos desafios para a implantação de programas de gestão arquivística de d...
Os novos desafios para a implantação de programas de gestão arquivística de d...Daniel Flores
 
Workflows científicos
Workflows científicosWorkflows científicos
Workflows científicosElaine Naomi
 
A preservação distibuída de coleções de obras raras digitalizadas
A preservação distibuída de coleções de obras raras digitalizadasA preservação distibuída de coleções de obras raras digitalizadas
A preservação distibuída de coleções de obras raras digitalizadasCariniana Rede
 
Proposta de 5 disciplinas de DADs - Desafios contemporâneos dos currículos de...
Proposta de 5 disciplinas de DADs - Desafios contemporâneos dos currículos de...Proposta de 5 disciplinas de DADs - Desafios contemporâneos dos currículos de...
Proposta de 5 disciplinas de DADs - Desafios contemporâneos dos currículos de...Daniel Flores
 

Semelhante a Preservação digital teses TDX (20)

Apresentação cariniana jbb-2014
Apresentação cariniana jbb-2014Apresentação cariniana jbb-2014
Apresentação cariniana jbb-2014
 
Oficina 1 Confoa 2013 - Parte 1 - Interoperabilidade e repositorios - eloy ro...
Oficina 1 Confoa 2013 - Parte 1 - Interoperabilidade e repositorios - eloy ro...Oficina 1 Confoa 2013 - Parte 1 - Interoperabilidade e repositorios - eloy ro...
Oficina 1 Confoa 2013 - Parte 1 - Interoperabilidade e repositorios - eloy ro...
 
Repositorios Institucionais DSpace
Repositorios Institucionais DSpaceRepositorios Institucionais DSpace
Repositorios Institucionais DSpace
 
Apresentação Rede Cariniana Histórico
Apresentação Rede Cariniana HistóricoApresentação Rede Cariniana Histórico
Apresentação Rede Cariniana Histórico
 
Padicat: O archivo da web da Catalunha
Padicat: O archivo da web da CatalunhaPadicat: O archivo da web da Catalunha
Padicat: O archivo da web da Catalunha
 
Gestão de dados de investigação da recolha até ao depósito: Uma abordagem bas...
Gestão de dados de investigação da recolha até ao depósito: Uma abordagem bas...Gestão de dados de investigação da recolha até ao depósito: Uma abordagem bas...
Gestão de dados de investigação da recolha até ao depósito: Uma abordagem bas...
 
Bibliotecas
BibliotecasBibliotecas
Bibliotecas
 
Relatório Cariniana - outubro 2014
Relatório Cariniana - outubro 2014Relatório Cariniana - outubro 2014
Relatório Cariniana - outubro 2014
 
Apresentação cariniana rbsp-2014
Apresentação cariniana rbsp-2014Apresentação cariniana rbsp-2014
Apresentação cariniana rbsp-2014
 
3º Apresentação Intercalar
3º Apresentação Intercalar3º Apresentação Intercalar
3º Apresentação Intercalar
 
Software DSpace 1 de 4
Software DSpace 1 de 4Software DSpace 1 de 4
Software DSpace 1 de 4
 
Bibliotecas Digitais e Serviços de Preservação
Bibliotecas Digitais e Serviços de PreservaçãoBibliotecas Digitais e Serviços de Preservação
Bibliotecas Digitais e Serviços de Preservação
 
Cariniana 2016 preservando dados de pesquisa
Cariniana 2016   preservando dados de pesquisaCariniana 2016   preservando dados de pesquisa
Cariniana 2016 preservando dados de pesquisa
 
Acesso livre e Comunicação Científica: Intersecções
Acesso livre e Comunicação Científica: IntersecçõesAcesso livre e Comunicação Científica: Intersecções
Acesso livre e Comunicação Científica: Intersecções
 
Os novos desafios para a implantação de programas de gestão arquivística de d...
Os novos desafios para a implantação de programas de gestão arquivística de d...Os novos desafios para a implantação de programas de gestão arquivística de d...
Os novos desafios para a implantação de programas de gestão arquivística de d...
 
Workflows científicos
Workflows científicosWorkflows científicos
Workflows científicos
 
A preservação distibuída de coleções de obras raras digitalizadas
A preservação distibuída de coleções de obras raras digitalizadasA preservação distibuída de coleções de obras raras digitalizadas
A preservação distibuída de coleções de obras raras digitalizadas
 
Proposta de 5 disciplinas de DADs - Desafios contemporâneos dos currículos de...
Proposta de 5 disciplinas de DADs - Desafios contemporâneos dos currículos de...Proposta de 5 disciplinas de DADs - Desafios contemporâneos dos currículos de...
Proposta de 5 disciplinas de DADs - Desafios contemporâneos dos currículos de...
 
Gestão de Dados: Sobreposições ou Convergências entre Infraestruturas?
Gestão de Dados: Sobreposições ou Convergências entre Infraestruturas?Gestão de Dados: Sobreposições ou Convergências entre Infraestruturas?
Gestão de Dados: Sobreposições ou Convergências entre Infraestruturas?
 
Oclc cbbd-2013
Oclc cbbd-2013Oclc cbbd-2013
Oclc cbbd-2013
 

Mais de CSUC - Consorci de Serveis Universitaris de Catalunya

Mais de CSUC - Consorci de Serveis Universitaris de Catalunya (20)

Tendencias en herramientas de monitorización de redes y modelo de madurez en ...
Tendencias en herramientas de monitorización de redes y modelo de madurez en ...Tendencias en herramientas de monitorización de redes y modelo de madurez en ...
Tendencias en herramientas de monitorización de redes y modelo de madurez en ...
 
Quantum Computing Master Class 2024 (Quantum Day)
Quantum Computing Master Class 2024 (Quantum Day)Quantum Computing Master Class 2024 (Quantum Day)
Quantum Computing Master Class 2024 (Quantum Day)
 
Publicar dades de recerca amb el Repositori de Dades de Recerca
Publicar dades de recerca amb el Repositori de Dades de RecercaPublicar dades de recerca amb el Repositori de Dades de Recerca
Publicar dades de recerca amb el Repositori de Dades de Recerca
 
In sharing we trust. Taking advantage of a diverse consortium to build a tran...
In sharing we trust. Taking advantage of a diverse consortium to build a tran...In sharing we trust. Taking advantage of a diverse consortium to build a tran...
In sharing we trust. Taking advantage of a diverse consortium to build a tran...
 
Formació RDM: com fer un pla de gestió de dades amb l’eiNa DMP?
Formació RDM: com fer un pla de gestió de dades amb l’eiNa DMP?Formació RDM: com fer un pla de gestió de dades amb l’eiNa DMP?
Formació RDM: com fer un pla de gestió de dades amb l’eiNa DMP?
 
Com pot ajudar la gestió de les dades de recerca a posar en pràctica la ciènc...
Com pot ajudar la gestió de les dades de recerca a posar en pràctica la ciènc...Com pot ajudar la gestió de les dades de recerca a posar en pràctica la ciènc...
Com pot ajudar la gestió de les dades de recerca a posar en pràctica la ciènc...
 
Security Human Factor Sustainable Outputs: The Network eAcademy
Security Human Factor Sustainable Outputs: The Network eAcademySecurity Human Factor Sustainable Outputs: The Network eAcademy
Security Human Factor Sustainable Outputs: The Network eAcademy
 
The Research Portal of Catalonia: Growing more (information) & more (services)
The Research Portal of Catalonia: Growing more (information) & more (services)The Research Portal of Catalonia: Growing more (information) & more (services)
The Research Portal of Catalonia: Growing more (information) & more (services)
 
Facilitar la gestión, visibilidad y reutilización de los datos de investigaci...
Facilitar la gestión, visibilidad y reutilización de los datos de investigaci...Facilitar la gestión, visibilidad y reutilización de los datos de investigaci...
Facilitar la gestión, visibilidad y reutilización de los datos de investigaci...
 
La gestión de datos de investigación en las bibliotecas universitarias españolas
La gestión de datos de investigación en las bibliotecas universitarias españolasLa gestión de datos de investigación en las bibliotecas universitarias españolas
La gestión de datos de investigación en las bibliotecas universitarias españolas
 
Disposes de recursos il·limitats? Prioritza estratègicament els teus projecte...
Disposes de recursos il·limitats? Prioritza estratègicament els teus projecte...Disposes de recursos il·limitats? Prioritza estratègicament els teus projecte...
Disposes de recursos il·limitats? Prioritza estratègicament els teus projecte...
 
Les persones i les seves capacitats en el nucli de la transformació digital. ...
Les persones i les seves capacitats en el nucli de la transformació digital. ...Les persones i les seves capacitats en el nucli de la transformació digital. ...
Les persones i les seves capacitats en el nucli de la transformació digital. ...
 
Enginyeria Informàtica: una cursa de fons
Enginyeria Informàtica: una cursa de fonsEnginyeria Informàtica: una cursa de fons
Enginyeria Informàtica: una cursa de fons
 
Transformació de rols i habilitats en un món ple d'IA
Transformació de rols i habilitats en un món ple d'IATransformació de rols i habilitats en un món ple d'IA
Transformació de rols i habilitats en un món ple d'IA
 
Difusió del coneixement a l'Il·lustre Col·legi de l'Advocacia de Barcelona
Difusió del coneixement a l'Il·lustre Col·legi de l'Advocacia de BarcelonaDifusió del coneixement a l'Il·lustre Col·legi de l'Advocacia de Barcelona
Difusió del coneixement a l'Il·lustre Col·legi de l'Advocacia de Barcelona
 
Fons de discos perforats de cartró
Fons de discos perforats de cartróFons de discos perforats de cartró
Fons de discos perforats de cartró
 
Biblioteca Digital Gencat
Biblioteca Digital GencatBiblioteca Digital Gencat
Biblioteca Digital Gencat
 
El fons Enrique Tierno Galván: recepció, tractament i difusió
El fons Enrique Tierno Galván: recepció, tractament i difusióEl fons Enrique Tierno Galván: recepció, tractament i difusió
El fons Enrique Tierno Galván: recepció, tractament i difusió
 
El CIDMA: més enllà dels espais físics
El CIDMA: més enllà dels espais físicsEl CIDMA: més enllà dels espais físics
El CIDMA: més enllà dels espais físics
 
Els serveis del CSUC per a la comunitat CCUC
Els serveis del CSUC per a la comunitat CCUCEls serveis del CSUC per a la comunitat CCUC
Els serveis del CSUC per a la comunitat CCUC
 

Preservação digital teses TDX

  • 1. Preservação digital de teses e dissertações Experiência do repositório cooperativo TDX Ricard de la Vega Computing and Applications Manager Consorci de Serveis Universitaris de Catalunya (CSUC) 10º debate Grupo de Pesquisa Dríade
  • 2. Agenda 1. Introdução (CSUC) 2. Repositórios de cooperação 3. Repositório de teses digitais (TDX) 4. Preservação do TDX
  • 3. • Generalitat de Catalunya • Universitat de Barcelona (UB) • Universitat Autònoma de Barcelona (UAB) • Universitat Politècnica de Catalunya (UPC) • Universitat Pompeu Fabra (UPF) • Universitat de Girona (UdG) • Universitat Rovira i Virgili (URV) • Universitat de Lleida (UdL) • Universitat Oberta de Catalunya (UOC) • Universitat Ramon Llull (URL) • Universitat de Vic (UVic) • Gestão de infraestruturas e serviços cooperativos para as universidades e lá investigação da Catalunha • Fusão de um consórcio TIC e um bibliotecário Consórcio de Serviços Universitários de Catalunha (CSUC)
  • 4.
  • 6. Agenda 1. Introdução (CSUC) 2. Repositórios de cooperação 3. Repositório de teses digitais (TDX) 4. Preservação do TDX
  • 7. Towards a European e-Infrastructure for e-Science Digital Repositories. 7th e-Concentration Meeting, Brussels, 12-14th October, 2009 Repositórios de cooperação
  • 8. TDX RECERCAT RACO PADICAT RECYT MDC MDX PADICYT CALAIX FILMOTECA SCIENTIA MACBA Repositórios digitais
  • 9. 2001 2005 2006 2006 2006 2006 2009 2009 2010 2012 2015 2015 Quase 15 anos de repositórios…
  • 10. Tese Trabalhos de pesquisa Revistas Websites Revistas Património colecções Materiais didáticos Websites Dept. Cultura Património cinematográfico Dept. Saúde Património artístico Conteúdo
  • 11. Texto (PDF) Texto (PDF) Texto (PDF) WARCs Texto (PDF) Imagem Texto (PDF) WARCs Texto, imagem, audiovisual Texto, imagem, audiovisual Texto, imagem, audiovisual Texto, imagem, audiovisual Formatos: texto, imagem, vídeo...
  • 12. DSpace DSpace OJS Heritrix, etc. OJS CONTENTdm DSpace Heritrix, etc. DSpace DSpace DSpace DSpace Programas: DSpace, OJS...
  • 13. Gestão de dados científicos Grupo de trabalho per: – Criação de uma política – Data Management Plans • Orientações (http://hdl.handle.net/2072/266523) • DMP Online instância de DCC – Repositório de dados de pesquisa • Orientações (http://hdl.handle.net/2072/266502) • Possível criação de um repositório cooperativo – Piloto
  • 14. Portal de pesquisa da Catalunha
  • 15. Other DRAC Universitas XXI GREC SIGMA UNEIX Local and consortia repositories. Mainly DSpace Catalan government DataWarehouse PRC. Based on Dspace-CRIS (CINECA) 11 university CRIS systems (from 4 different vendors) Protocol: OAI-PMH/SWORD Format: DC Protocol: OAI-PMH Format: CERIF-XML Protocol: XLS files Format: UNEIX defined Portal de pesquisa da Catalunha
  • 16. Agenda 1. Introdução (CSUC) 2. Repositórios de cooperação 3. Repositório de teses digitais (TDX) 4. Preservação do TDX
  • 17. TDX em 2001 (80 GB, 8K access hits)
  • 18. TDX em 2016 (0.6 TB, 4.5M access hits)
  • 19. Estructura de TDX Cada universidade (18): • é uma Comunidade • Tem licenças de admissão de teses • Administra sua coleção • Personalização • Pesquisadores frontend Procedimentos e grupos de trabalho comum Universidades
  • 20. Estructura de TDX Departamentos e faculdades Teses
  • 21. Divulgação e preservação da tese URV UVic UdG UdL UV UJI UM UC UA UAB UPF UB Arquivos UIB Metadados Admissão das 18 universidades
  • 22. Divulgação da tese espanholas 33 33 33 33 33 33 33 33 OAI-PMH harvester da tese das 33 universidades espanholas
  • 23. CRIS CRIS CRIS Mais divulgação da teses DART Recol ecta Driver Tese europeia Trabalhos de pesquisa espanhol Trabalhos de pesquisa europeia … Motores de busca Outros colecionadores Portal de pesquisa da Catalunha CRIS CRIS CRIS
  • 24. Agenda 1. Introdução (CSUC) 2. Repositórios de cooperação 3. Repositório de teses digitais (TDX) 4. Preservação do TDX
  • 25. Long term preservation • The e-infrastructure must ensure the long term data access, without failure. • To succeed, it must be taken into account: – Replication (more than one copy) – Media refresh – Format migration – Data integrity (checksums) – Contingency and recovery plan – Preservation plan – ...
  • 26. Hardware migrations 2001 (cpu, disk and tapes) – HP N4000 2003 (cpu + disk) – HP rp5430 with 2 processors, 704 GB memory – HP EVA V.2 with 2,8 TB disk 2006 (cpu + tape) – High availability HP cluster with 32 nodes – Adic Scalar i2000 (from 9840 tapes to LTO3) 2009 (disk) – NetApp FAS3170 with 60 TB disk 2012 (cpu) – New High availability cluster 2016 (disk) – New storage cabine Born in a supercomputer!
  • 27. Software migrations 2001 – ETDdb from Virginia Tech 2005 – + OAI-PMH & statistics modules 2007 – + Spanish Thesis Harvester (MetaIndex module + X-Server libraries) from Ex Libris 2011 – DSpace 1.6 from MIT & HP labs 2013 – + Drupal for news & intranet … 2016 – DSpace 5.2
  • 28. Data integrity & Format migration • Data Integrity –Checksums on DSpace (online version) –Checksums on LOCKSS (dark copies) • Format migration –Not yet (PDF) –But Metadata migration yes • From HTML forms (ETDdb) to Dublin Core (DSpace)
  • 29. Replication • On disk - Online version (1) • One backup on the tape library (2) • Other backup on a fireproof cabinet (3) • Other backup on a 50 Km remote Centre (4) • A dark copy on the MetaArchive Cooperative – Private LOCKSS (Lots of Copies Keep Stuff Safe) Network – 7 more copies around the world (11) • And (possible) more copies on each University
  • 30. MetaArchive Cooperative • The Educopia Institute’s mission is help cultural, scientific, and scholarly institutions achieve greater impact • Lots of Copies Keep Stuff Safe (LOCKSS) • A private LOCKSS network (PLN) • Centralized facilities (conspectus, svn…) • P2P secure network of “cache” nodes
  • 31. Marketing... “With others, you can accomplish what you cannot accomplish alone” “Don’t put all your eggs in one basket”
  • 32. Private LOCKSS Networks (PLNs) • Alabama Digital Preservation Network (ADPN). • CLOCKSS Archive. • Council of Prairie and Pacific University Libraries (COPPUL) • Data Preservation Alliance for the Social Sciences (Data-PASS) • Digital Commons. • Digital Federal Depository Library Program. • CARINIANA Instituto Brasileiro de Informaçãoem Ciência e Tecnologia • Lukll. • MetaArchive Cooperative. • PKP Public Knowledge Project. • PNAS Proceedings of the National Academy of Sciences. • Persistent Digital Archives and Library System – PeDALS. • SAFE (SAFE Archiving FEderation). • Synergies. • UK LOCKSS Alliance Fonte: www.lockss.org/community/networks
  • 33. 50 instituições em 3 países
  • 34.
  • 35.
  • 36.
  • 39. Private LOCKSS network • 7 copies with widespread geographical distribution • All 7 servers revisit on a regular basis to pick up new and changed content • Versioning (no remove changed content) • Checksums file integrity control
  • 40. Benefits – Distributed archiving of digitals collections across multiple geographically distributed preservation sites – Retrieval of contents in case of catastrophic loss – Assistance with installation and maintenance of the technical solution – Reports, coordination web conference…
  • 41. Responsibilities Initially: – Local LOCKSS installation (cache) – Define a data preservation strategy (Data Wrangling) for your “particular” repository – Rules design for the other cache to harvest your repository (Plugin) – Enroll your collections in a central database (Conspectus)
  • 42. Responsibilities Periodically: – Add collections (of others) assigned centrally – Apply firewall changes (IP active list) – Apply updates – Coordination with the MetaArchive staff and others cache if a restore (for disaster) is needed
  • 43. Nuestra experiencia con MetaArchive – Fácil modelo – Relativamente barata – Eu comprovada (em casos reais) – Precisamos conhecimento técnico – É apropriado para o conteúdo bem definido – Formato agnóstico, “solo" preserva arquivos
  • 44. Bibliografia – A Guide to Distributed Digital Preservation. K. Skinner and M. Schultz, Eds. (Atlanta, GA: Educopia Institute, 2010). http://metaarchive.org/sites/metaarchive.org/files/GDDP_Educopia.pdf – Miquel Térmens: Preservación digital. Barcelona, Editorial UOC, 2014. ISBN:978- 84-9064-082-1. – Ricard de la Vega. "Preservació digital al núvol." Item: revista de biblioteconomia i documentació, 2013,Núm. 57 . http://www.raco.cat/index.php/Item/article/view/269708/372314 – Huguet, Miquel ; Anglada i de Ferrer, Lluís M. ; Vega, Ricard de la. "Catalan Policies and Experiences on Cooperative Repositories". Centre de Supercomputació de Catalunya. 2007. http://hdl.handle.net/2072/4083