SlideShare uma empresa Scribd logo
1 de 9
Baixar para ler offline
PADICAT
O archivo da web da Catalunha
Arquivamento e Preservaçao da Web
Trocando Experiencias
2 de fevereiro de 2021 via zoom
Ricard de la Vega
Patrimônio Digital da Catalunha
PADICAT é uma iniciativa da Biblioteca da
Catalunha para capturar, preservar e divulgar o
Arquivo Web da Catalunha
Conteúdo desde 2005
– 380.000 capturas
– 117.000 websites
– 526 milhões de arquivos em 23 TB
Accesso aberto em www.padicat.cat
Coordenação e colaboradores
A Bibliotecade Catalunya é a coordenadora
O Consorci de Serveis Universitaris de Catalunya
(CSUC) é o parceiro tecnológico
A Generalitat de Catalunya é o patrocinador
A FundaciópuntCAT apoia
Membros do International Internet Preservation
Consortium (IIPC)
Referentes e outros projetos
Referentes iniciais
– Internet archive
– Kulturaw3
– Pandora
– Etc
Dois modelos
– Exaustivo
– Seletivo
2005
2007
2009
Um modelo de captura híbrido
• Captura periódica do domínio .cat (41% do
arquivo)
• Captura seletiva de sites que correspondem a
acordos (2%) e recomendados (27%)
• Captura seletiva de sites vinculados a
monografias (30%)
18 monografias em 15 anos
• 15 em processos eleitorais
– Parlamento da Catalunha (2006, 2010, 2012, 2015)
– Municipal (2007, 2011, 2015, 2019)
– Generais espanhóis (2008, 2011, 2015, 2 * 2019)
– Europeu (2009)
– Referendo para a independência da Catalunha (2017)
• 3 Temáticos
– Folk-Rock (2008)
– Museus da Catalunha (2010)
– Coronavírus (2020)
Llueca, C., Suades, G., Torres, N., De-la-Vega, R., & Cócera, D. (2011). A ritmo de tweet:archivando elecciones 2.0. ProfesionalDe La Información, 20(3), 309-
314. https://doi.org/10.3145/epi.2011.may.10
Etapas do arquivo
• 2005 – 2006: Nascimento
• 2007 – 2008: Crescimento
• 2009 – 2011: Consolidação
• Desde 2012: Meta de incorporar 75 mil versões de
32 mil websites anualmente
2006 2011 2019
Infraestrutura tecnológica
• Hardware
– 8 virtual servers (from 4GB to 8GB of RAM)
– SATA disk cabin (aprox. 45 TB)
– Backup on disk & tape cabin (aprox. 60 TB)
• Software
– Capture (ARC y WARC): Heritrix 1, Heritrix3, WCT (Web Curator Tool),
scripts próprios para automação de carga e verificação de domínio
– Indexaçãoe pesquisa por URL: NutchWAX, Hadoop,
Wayback, OpenWayback
– Indexaçãoe pesquisa por keyword: WERA, TNH
– Catalogação:software própio CAT (Curator Archiving tool)
– CMS: Drupal
"CAT (Curator Archiving Tool): millorant l’accés als arxius w eb”, presentat a International Internet Preservation Consortium meeting (Viena 2010) © Llueca, Cócera, Torres, Suades,
De la Vega. Biblioteca de Catalunya & Centre de Supercomputació de Catalunya, 2010 (https://www.padicat.cat/sites/default/files/ponencies/padicat_iipc_2010_cat.pdf)
Muito obrigado!
Ricard de la Vega
ricard.delavega@csuc.cat
@rdelavega

Mais conteúdo relacionado

Semelhante a Padicat: O archivo da web da Catalunha

Apresentação cariniana rbsp-2014
Apresentação cariniana rbsp-2014Apresentação cariniana rbsp-2014
Apresentação cariniana rbsp-2014Cariniana Rede
 
Apresentação Rede Cariniana Histórico
Apresentação Rede Cariniana HistóricoApresentação Rede Cariniana Histórico
Apresentação Rede Cariniana HistóricoCariniana Rede
 
Congresso brasileiro bibliotecarios_22_julho_2015
Congresso brasileiro bibliotecarios_22_julho_2015Congresso brasileiro bibliotecarios_22_julho_2015
Congresso brasileiro bibliotecarios_22_julho_2015Aquiles Alencar Brayner
 
Base De Dados Documentais
Base De Dados DocumentaisBase De Dados Documentais
Base De Dados Documentaisjosecosme
 
A preservação distibuída de coleções de obras raras digitalizadas
A preservação distibuída de coleções de obras raras digitalizadasA preservação distibuída de coleções de obras raras digitalizadas
A preservação distibuída de coleções de obras raras digitalizadasCariniana Rede
 
Dados científicos, Serviços nacionais de dados e Research Data Alliance
Dados científicos, Serviços nacionais de dados e Research Data AllianceDados científicos, Serviços nacionais de dados e Research Data Alliance
Dados científicos, Serviços nacionais de dados e Research Data AllianceDaniela Brauner
 
Reuniao OCLC no CBBD 2013
Reuniao OCLC no CBBD 2013Reuniao OCLC no CBBD 2013
Reuniao OCLC no CBBD 2013OCLC LAC
 
Apresentação seminário bibliotecas e repositórios completa 2
Apresentação seminário bibliotecas e repositórios   completa 2Apresentação seminário bibliotecas e repositórios   completa 2
Apresentação seminário bibliotecas e repositórios completa 2Elis Gabriela
 
Seminário "Bibliotecas digitais e repositórios institucionais"
Seminário "Bibliotecas digitais e repositórios institucionais"Seminário "Bibliotecas digitais e repositórios institucionais"
Seminário "Bibliotecas digitais e repositórios institucionais"Elis Gabriela
 
Proyecto latipat abril 2010 portugues
Proyecto latipat abril 2010 portuguesProyecto latipat abril 2010 portugues
Proyecto latipat abril 2010 portuguesLATIPAT
 
Apresentacao ForumRNP 2015 - Daniela Brauner
Apresentacao ForumRNP 2015 - Daniela BraunerApresentacao ForumRNP 2015 - Daniela Brauner
Apresentacao ForumRNP 2015 - Daniela BraunerDaniela Brauner
 
Relatório da Rede Cariniana 2014
Relatório da Rede Cariniana 2014Relatório da Rede Cariniana 2014
Relatório da Rede Cariniana 2014Valéria Mota
 
Relatório Cariniana - outubro 2014
Relatório Cariniana - outubro 2014Relatório Cariniana - outubro 2014
Relatório Cariniana - outubro 2014Cariniana Rede
 

Semelhante a Padicat: O archivo da web da Catalunha (20)

Apresentação cariniana rbsp-2014
Apresentação cariniana rbsp-2014Apresentação cariniana rbsp-2014
Apresentação cariniana rbsp-2014
 
Apresentação Rede Cariniana Histórico
Apresentação Rede Cariniana HistóricoApresentação Rede Cariniana Histórico
Apresentação Rede Cariniana Histórico
 
Congresso brasileiro bibliotecarios_22_julho_2015
Congresso brasileiro bibliotecarios_22_julho_2015Congresso brasileiro bibliotecarios_22_julho_2015
Congresso brasileiro bibliotecarios_22_julho_2015
 
Base De Dados Documentais
Base De Dados DocumentaisBase De Dados Documentais
Base De Dados Documentais
 
A preservação distibuída de coleções de obras raras digitalizadas
A preservação distibuída de coleções de obras raras digitalizadasA preservação distibuída de coleções de obras raras digitalizadas
A preservação distibuída de coleções de obras raras digitalizadas
 
Dados científicos, Serviços nacionais de dados e Research Data Alliance
Dados científicos, Serviços nacionais de dados e Research Data AllianceDados científicos, Serviços nacionais de dados e Research Data Alliance
Dados científicos, Serviços nacionais de dados e Research Data Alliance
 
Curadoria digital fcrb 2015_dia 2
Curadoria digital fcrb 2015_dia 2Curadoria digital fcrb 2015_dia 2
Curadoria digital fcrb 2015_dia 2
 
Oclc cbbd-2013
Oclc cbbd-2013Oclc cbbd-2013
Oclc cbbd-2013
 
Reuniao OCLC no CBBD 2013
Reuniao OCLC no CBBD 2013Reuniao OCLC no CBBD 2013
Reuniao OCLC no CBBD 2013
 
Desafios e oportunidades da interoperabilidade nos repositórios de acesso aberto
Desafios e oportunidades da interoperabilidade nos repositórios de acesso abertoDesafios e oportunidades da interoperabilidade nos repositórios de acesso aberto
Desafios e oportunidades da interoperabilidade nos repositórios de acesso aberto
 
Preservação Digital
Preservação DigitalPreservação Digital
Preservação Digital
 
Curadoria digital fcrb 2015_dia 1
Curadoria digital fcrb 2015_dia 1Curadoria digital fcrb 2015_dia 1
Curadoria digital fcrb 2015_dia 1
 
Apresentação seminário bibliotecas e repositórios completa 2
Apresentação seminário bibliotecas e repositórios   completa 2Apresentação seminário bibliotecas e repositórios   completa 2
Apresentação seminário bibliotecas e repositórios completa 2
 
Seminário "Bibliotecas digitais e repositórios institucionais"
Seminário "Bibliotecas digitais e repositórios institucionais"Seminário "Bibliotecas digitais e repositórios institucionais"
Seminário "Bibliotecas digitais e repositórios institucionais"
 
Curadoria digital fcrb 2017_dia 2
Curadoria digital fcrb 2017_dia 2Curadoria digital fcrb 2017_dia 2
Curadoria digital fcrb 2017_dia 2
 
Proyecto latipat abril 2010 portugues
Proyecto latipat abril 2010 portuguesProyecto latipat abril 2010 portugues
Proyecto latipat abril 2010 portugues
 
Apresentacao ForumRNP 2015 - Daniela Brauner
Apresentacao ForumRNP 2015 - Daniela BraunerApresentacao ForumRNP 2015 - Daniela Brauner
Apresentacao ForumRNP 2015 - Daniela Brauner
 
Relatório da Rede Cariniana 2014
Relatório da Rede Cariniana 2014Relatório da Rede Cariniana 2014
Relatório da Rede Cariniana 2014
 
Relatório Cariniana - outubro 2014
Relatório Cariniana - outubro 2014Relatório Cariniana - outubro 2014
Relatório Cariniana - outubro 2014
 
Oficina 1 Confoa 2013 - Parte 1 - Interoperabilidade e repositorios - eloy ro...
Oficina 1 Confoa 2013 - Parte 1 - Interoperabilidade e repositorios - eloy ro...Oficina 1 Confoa 2013 - Parte 1 - Interoperabilidade e repositorios - eloy ro...
Oficina 1 Confoa 2013 - Parte 1 - Interoperabilidade e repositorios - eloy ro...
 

Mais de Ricard de la Vega

The Research Portal of Catalonia: Growing more (information) & more (services)
The Research Portal of Catalonia: Growing more (information) & more (services)The Research Portal of Catalonia: Growing more (information) & more (services)
The Research Portal of Catalonia: Growing more (information) & more (services)Ricard de la Vega
 
Servicios de datos para todo el ciclode investigación
Servicios de datos para todo el ciclode investigaciónServicios de datos para todo el ciclode investigación
Servicios de datos para todo el ciclode investigaciónRicard de la Vega
 
La conservació digital d'obres cinematpgràfiques: un projecte del CSUC pel Ce...
La conservació digital d'obres cinematpgràfiques: un projecte del CSUC pel Ce...La conservació digital d'obres cinematpgràfiques: un projecte del CSUC pel Ce...
La conservació digital d'obres cinematpgràfiques: un projecte del CSUC pel Ce...Ricard de la Vega
 
Proyectos cooperativos de ciencia abierta en Catalunya
Proyectos cooperativos de ciencia abierta en CatalunyaProyectos cooperativos de ciencia abierta en Catalunya
Proyectos cooperativos de ciencia abierta en CatalunyaRicard de la Vega
 
Requisitos funcionales para la creación de repositorios consorciados de datos...
Requisitos funcionales para la creación de repositorios consorciados de datos...Requisitos funcionales para la creación de repositorios consorciados de datos...
Requisitos funcionales para la creación de repositorios consorciados de datos...Ricard de la Vega
 
Technical Challenges and Approaches to Build an Open Ecosystem of Heterogeneo...
Technical Challenges and Approaches to Build an Open Ecosystem of Heterogeneo...Technical Challenges and Approaches to Build an Open Ecosystem of Heterogeneo...
Technical Challenges and Approaches to Build an Open Ecosystem of Heterogeneo...Ricard de la Vega
 
Quatre tuits sobre metodologies àgils
Quatre tuits sobre metodologies àgilsQuatre tuits sobre metodologies àgils
Quatre tuits sobre metodologies àgilsRicard de la Vega
 
Analysis of requirements and benchmarking of CRIS for the Universities of Cat...
Analysis of requirements and benchmarking of CRIS for the Universities of Cat...Analysis of requirements and benchmarking of CRIS for the Universities of Cat...
Analysis of requirements and benchmarking of CRIS for the Universities of Cat...Ricard de la Vega
 
Research Papers Recommender based on Digital Repositories Metadata
Research Papers Recommender based on Digital Repositories MetadataResearch Papers Recommender based on Digital Repositories Metadata
Research Papers Recommender based on Digital Repositories MetadataRicard de la Vega
 
Recomendador de artículos científicos basado en metadatos de repositorios dig...
Recomendador de artículos científicos basado en metadatos de repositorios dig...Recomendador de artículos científicos basado en metadatos de repositorios dig...
Recomendador de artículos científicos basado en metadatos de repositorios dig...Ricard de la Vega
 
Preservaçao digital distribuída de um repositório de teses de doutorado (TDX)
Preservaçao digital distribuída de um repositório de teses de doutorado (TDX)Preservaçao digital distribuída de um repositório de teses de doutorado (TDX)
Preservaçao digital distribuída de um repositório de teses de doutorado (TDX)Ricard de la Vega
 
De què parlem quan parlem de serveis al núvol?
De què parlem quan parlem de serveis al núvol?De què parlem quan parlem de serveis al núvol?
De què parlem quan parlem de serveis al núvol?Ricard de la Vega
 
El Portal de la Investigación de Catalunya, una suma de información de los CR...
El Portal de la Investigación de Catalunya, una suma de información de los CR...El Portal de la Investigación de Catalunya, una suma de información de los CR...
El Portal de la Investigación de Catalunya, una suma de información de los CR...Ricard de la Vega
 
The Catalan Research portal: collecting information from Catalan universities...
The Catalan Research portal: collecting information from Catalan universities...The Catalan Research portal: collecting information from Catalan universities...
The Catalan Research portal: collecting information from Catalan universities...Ricard de la Vega
 
Let's do data research work: the creation of a portal with research informati...
Let's do data research work: the creation of a portal with research informati...Let's do data research work: the creation of a portal with research informati...
Let's do data research work: the creation of a portal with research informati...Ricard de la Vega
 
Top ten-dències tecnològiques
Top ten-dències tecnològiquesTop ten-dències tecnològiques
Top ten-dències tecnològiquesRicard de la Vega
 
Infraestructures per dades de recerca
Infraestructures per dades de recercaInfraestructures per dades de recerca
Infraestructures per dades de recercaRicard de la Vega
 

Mais de Ricard de la Vega (20)

The Research Portal of Catalonia: Growing more (information) & more (services)
The Research Portal of Catalonia: Growing more (information) & more (services)The Research Portal of Catalonia: Growing more (information) & more (services)
The Research Portal of Catalonia: Growing more (information) & more (services)
 
Servicios de datos para todo el ciclode investigación
Servicios de datos para todo el ciclode investigaciónServicios de datos para todo el ciclode investigación
Servicios de datos para todo el ciclode investigación
 
Visualització de dades
Visualització de dadesVisualització de dades
Visualització de dades
 
Visualització de dades
Visualització de dadesVisualització de dades
Visualització de dades
 
La conservació digital d'obres cinematpgràfiques: un projecte del CSUC pel Ce...
La conservació digital d'obres cinematpgràfiques: un projecte del CSUC pel Ce...La conservació digital d'obres cinematpgràfiques: un projecte del CSUC pel Ce...
La conservació digital d'obres cinematpgràfiques: un projecte del CSUC pel Ce...
 
Proyectos cooperativos de ciencia abierta en Catalunya
Proyectos cooperativos de ciencia abierta en CatalunyaProyectos cooperativos de ciencia abierta en Catalunya
Proyectos cooperativos de ciencia abierta en Catalunya
 
Requisitos funcionales para la creación de repositorios consorciados de datos...
Requisitos funcionales para la creación de repositorios consorciados de datos...Requisitos funcionales para la creación de repositorios consorciados de datos...
Requisitos funcionales para la creación de repositorios consorciados de datos...
 
Technical Challenges and Approaches to Build an Open Ecosystem of Heterogeneo...
Technical Challenges and Approaches to Build an Open Ecosystem of Heterogeneo...Technical Challenges and Approaches to Build an Open Ecosystem of Heterogeneo...
Technical Challenges and Approaches to Build an Open Ecosystem of Heterogeneo...
 
Quatre tuits sobre metodologies àgils
Quatre tuits sobre metodologies àgilsQuatre tuits sobre metodologies àgils
Quatre tuits sobre metodologies àgils
 
Informàtic
InformàticInformàtic
Informàtic
 
Analysis of requirements and benchmarking of CRIS for the Universities of Cat...
Analysis of requirements and benchmarking of CRIS for the Universities of Cat...Analysis of requirements and benchmarking of CRIS for the Universities of Cat...
Analysis of requirements and benchmarking of CRIS for the Universities of Cat...
 
Research Papers Recommender based on Digital Repositories Metadata
Research Papers Recommender based on Digital Repositories MetadataResearch Papers Recommender based on Digital Repositories Metadata
Research Papers Recommender based on Digital Repositories Metadata
 
Recomendador de artículos científicos basado en metadatos de repositorios dig...
Recomendador de artículos científicos basado en metadatos de repositorios dig...Recomendador de artículos científicos basado en metadatos de repositorios dig...
Recomendador de artículos científicos basado en metadatos de repositorios dig...
 
Preservaçao digital distribuída de um repositório de teses de doutorado (TDX)
Preservaçao digital distribuída de um repositório de teses de doutorado (TDX)Preservaçao digital distribuída de um repositório de teses de doutorado (TDX)
Preservaçao digital distribuída de um repositório de teses de doutorado (TDX)
 
De què parlem quan parlem de serveis al núvol?
De què parlem quan parlem de serveis al núvol?De què parlem quan parlem de serveis al núvol?
De què parlem quan parlem de serveis al núvol?
 
El Portal de la Investigación de Catalunya, una suma de información de los CR...
El Portal de la Investigación de Catalunya, una suma de información de los CR...El Portal de la Investigación de Catalunya, una suma de información de los CR...
El Portal de la Investigación de Catalunya, una suma de información de los CR...
 
The Catalan Research portal: collecting information from Catalan universities...
The Catalan Research portal: collecting information from Catalan universities...The Catalan Research portal: collecting information from Catalan universities...
The Catalan Research portal: collecting information from Catalan universities...
 
Let's do data research work: the creation of a portal with research informati...
Let's do data research work: the creation of a portal with research informati...Let's do data research work: the creation of a portal with research informati...
Let's do data research work: the creation of a portal with research informati...
 
Top ten-dències tecnològiques
Top ten-dències tecnològiquesTop ten-dències tecnològiques
Top ten-dències tecnològiques
 
Infraestructures per dades de recerca
Infraestructures per dades de recercaInfraestructures per dades de recerca
Infraestructures per dades de recerca
 

Padicat: O archivo da web da Catalunha

  • 1. PADICAT O archivo da web da Catalunha Arquivamento e Preservaçao da Web Trocando Experiencias 2 de fevereiro de 2021 via zoom Ricard de la Vega
  • 2. Patrimônio Digital da Catalunha PADICAT é uma iniciativa da Biblioteca da Catalunha para capturar, preservar e divulgar o Arquivo Web da Catalunha Conteúdo desde 2005 – 380.000 capturas – 117.000 websites – 526 milhões de arquivos em 23 TB Accesso aberto em www.padicat.cat
  • 3. Coordenação e colaboradores A Bibliotecade Catalunya é a coordenadora O Consorci de Serveis Universitaris de Catalunya (CSUC) é o parceiro tecnológico A Generalitat de Catalunya é o patrocinador A FundaciópuntCAT apoia Membros do International Internet Preservation Consortium (IIPC)
  • 4. Referentes e outros projetos Referentes iniciais – Internet archive – Kulturaw3 – Pandora – Etc Dois modelos – Exaustivo – Seletivo 2005 2007 2009
  • 5. Um modelo de captura híbrido • Captura periódica do domínio .cat (41% do arquivo) • Captura seletiva de sites que correspondem a acordos (2%) e recomendados (27%) • Captura seletiva de sites vinculados a monografias (30%)
  • 6. 18 monografias em 15 anos • 15 em processos eleitorais – Parlamento da Catalunha (2006, 2010, 2012, 2015) – Municipal (2007, 2011, 2015, 2019) – Generais espanhóis (2008, 2011, 2015, 2 * 2019) – Europeu (2009) – Referendo para a independência da Catalunha (2017) • 3 Temáticos – Folk-Rock (2008) – Museus da Catalunha (2010) – Coronavírus (2020) Llueca, C., Suades, G., Torres, N., De-la-Vega, R., & Cócera, D. (2011). A ritmo de tweet:archivando elecciones 2.0. ProfesionalDe La Información, 20(3), 309- 314. https://doi.org/10.3145/epi.2011.may.10
  • 7. Etapas do arquivo • 2005 – 2006: Nascimento • 2007 – 2008: Crescimento • 2009 – 2011: Consolidação • Desde 2012: Meta de incorporar 75 mil versões de 32 mil websites anualmente 2006 2011 2019
  • 8. Infraestrutura tecnológica • Hardware – 8 virtual servers (from 4GB to 8GB of RAM) – SATA disk cabin (aprox. 45 TB) – Backup on disk & tape cabin (aprox. 60 TB) • Software – Capture (ARC y WARC): Heritrix 1, Heritrix3, WCT (Web Curator Tool), scripts próprios para automação de carga e verificação de domínio – Indexaçãoe pesquisa por URL: NutchWAX, Hadoop, Wayback, OpenWayback – Indexaçãoe pesquisa por keyword: WERA, TNH – Catalogação:software própio CAT (Curator Archiving tool) – CMS: Drupal "CAT (Curator Archiving Tool): millorant l’accés als arxius w eb”, presentat a International Internet Preservation Consortium meeting (Viena 2010) © Llueca, Cócera, Torres, Suades, De la Vega. Biblioteca de Catalunya & Centre de Supercomputació de Catalunya, 2010 (https://www.padicat.cat/sites/default/files/ponencies/padicat_iipc_2010_cat.pdf)
  • 9. Muito obrigado! Ricard de la Vega ricard.delavega@csuc.cat @rdelavega