Curso LOCKSS

287 visualizações

Publicada em

Curso ministrado por Arthur Heleno, Engenheiro de Computação, colaborador da Rede Cariniana.

Publicada em: Tecnologia
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
287
No SlideShare
0
A partir de incorporações
0
Número de incorporações
54
Ações
Compartilhamentos
0
Downloads
9
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide
  • Caixas irão ter a replica dos dados – Mas caso ocorra falhas na transmissão, ou perdas de bits, como poderemos garantir a integridade dos dados? (ver próximo slide)
  • Caixas irão ter a replica dos dados – Mas caso ocorra falhas na transmissão, ou perdas de bits, como poderemos garantir a integridade dos dados? (ver próximo slide)
  • Por questões de segurança (Perda de dados por motivos de catástrofes naturais, incêndios, erros humanos, etc), as cópias podem ser alocadas em locais dispersos, não limitando-se a regiões nacionais. Worldwide stuff.
  • 5 processos fundamentais do funcionamento, englobando também características do sistema;
  • A partir das informações integradas ao plugin lockss, as caixas são capazes de rastrear os dados do Portal que possui periódicos, e encontrar os dados pertinentes à preservação: Unidade de arquivamento (objeto), metadados e manifesto lockss (permissão para coleta).
  • O teste de integridade com sistemas distribuídos é muito mais seguro e robusto. No início do processo, o sistema irá criar seu quórum de comparação, pois segundo estudos (stanford), não é necessário utilizar uma PLN inteira.
  • Daemon (processo automativo) irá gerar uma “chave” identificadora do conteúdo preservado, um hash (lockss utiliza a codificação SHA)
  • Após comparar os identificadores hash, o(s) mais destoante(s) do grupo irão proceder com o processo de ingestão novamente. (caso o dado original não esteja disponível, poderá buscar das outras caixas com índices maiores de acordo)
  • Processo completo
  • Estudos indicam que no futuro, alguns formatos poderão não ser mais acessados, gerando dificuldades para acessar dados preservados. LOCKSS poderá migrar um arquivo com formato obsoleto para um formato acessível em tempo de execução.
  • O lockss poderá gerar um script para proxies, de diversos sistemas: squid, pac, ez, etc. Desta forma, editores podem configurar seus portais para buscar o conteúdo nas caixas caso o servidor do conteúdo original esteja com problemas.
  • Curso LOCKSS

    1. 1. Sistema LOCKSS Arthur Heleno Lima R de Souza Engenheiro de Computação http://carniana.ibict.br cariniana@ibict.br Curso de Preservação Digital
    2. 2. OBJETIVO DO CURSO Capacitar profissionais no entendimento da ferramenta de Preservação Digital Distribuída LOCKSS, solução tecnológica utilizada na Rede Cariniana. Compreender as funcionalidades mais importantes, procedimentos e o gerenciamento da ferramenta.
    3. 3. SUMÁRIO  Sistema LOCKSS  Conceitos  Características técnicas;  Caixa LOCKSS;  Props Server;  Rede Privada LOCKSS (PLN)  Conceitos  Arquitetura distribuída  Como criar uma PLN  Processos de Preservação Digital do LOCKSS  Ingestão  Teste de Integridade  Acesso  Gerência
    4. 4. CARACTERÍSTICAS  Lot Of Copies Keep Stuff Safe(LOCKSS);  Desenvolvido pela Stanford University;  Arquitetura distribuída;  Segue o modelo OAIS.
    5. 5. SISTEMA LOCKSS Código Aberto Manutenção de baixo custo (contribuições da comunidade) Customizações Interoperabilidade Integração Linguagem Java Modular Extensão LOCKSS Plugins Requisitos mínimos do Sistema LOCKSS Processamento Intel x86 (ou compatível), 1 GHZ, 1 núcleo Memória 1 GB Espaço em disco 4 TeraByte+ (Cariniana)
    6. 6. CAIXA LOCKSS Uma caixa LOCKSS é a instalação do software LOCKSS em um hardware apropriado. Capaz de coletar, preservar e reparar danos do conteúdo preservado.
    7. 7. CAIXA LOCKSS Daemon Interface Conteúdo
    8. 8. PROPS SERVER É um servidor web de apoio às caixas LOCKSS. Fornece dados nos formatos .XML e .JAVA, contendo informações sobre os nós da rede, dados sobre a preservação e atualizações.
    9. 9. PROPS SERVER Base de dados de Metadados • [METS] Metadata Encoding and Transmission Standard Base de dados de Títulos • [XML] • Definições dos objetos preserváveis • Lista dos endereços IP Repositório de Plugins • [JAVA –XML] • Plugins Props Server Gerência do cache • …
    10. 10. PRIVATE LOCKSS NETWORK (PLN)  Rede Privada LOCKSS para preservação do patrimônio cultural;  Uma rede de comunicação entre caixas LOCKSS com capacidade de buscar dados no servidor de suporte (props server)  Estudos apontam que cada rede deve ter no mínimo 6 nós (parceiros);  Geograficamente dispersas;  Comunica-se via P2P, utilizando a rede mundial de computadores (internet).
    11. 11. REDE PRIVADA LOCKSS Caixa LOCKSS 1 Caixa LOCKSS 2 Caixa LOCKSS 3 Caixa LOCKSS 4 Caixa LOCKSS 6 Caixa LOCKSS 5 Props server
    12. 12. ??? Mas desta forma, o sistema não se caracterizaria como um sistema centralizado? O Props server age apenas como um repositório de informações para que não precise modificar esses dados em cada caixa manualmente. Não compete a ele nenhum tipo de processamento de dados.
    13. 13. ANALOGIA: SISTEMAS DISTRIBUÍDOS [BITTORRENT] Client BitTorrent 1 Tracker BitTorrent Client BitTorrent 2 Client BitTorrent 3 Client BitTorrent 4 Client BitTorrent 6 Client BitTorrent 5
    14. 14. P2P Peer-to-peer é uma arquitetura de redes de computadores onde cada um dos pontos ou nós da rede funciona tanto como cliente quanto como servidor, permitindo compartilhamentos de serviços e dados sem a necessidade de um servidor central de processamento. Segundo Tanenbaum & Steen, uma das arquiteturas para a construção de sistemas distribuídos é a arquitetura P2P e sua principal característica é a descentralização.
    15. 15. ARQUITETURA DISTRIBUÍDA – CÓPIAS GEOGRAFICAMENTE DISPERSAS
    16. 16. CRIANDO UMA REDE PRIVADA LOCKSS Passo 1: Instalar uma caixa LOCKSS.
    17. 17. CRIANDO UMA REDE PRIVADA LOCKSS Passo 2 : Configurar a caixa e apontar para um Props Server Guia de Instalação LOCKSS
    18. 18. CRIANDO UMA REDE PRIVADA LOCKSS Passo 3 : Configurar acesso e rede P2P: 9729 [LCAP] Interface: 8081 Proxy: 8080
    19. 19. CRIANDO UMA REDE PRIVADA LOCKSS Passo 4 : Gerencie as caixas LOCKSS via uma interface http://caixalockss.instituicao.br/8081 • Gerenciamento e configuração • Intuitivo • Acesso remoto e seguro Guia da interface administrativa LOCKSS
    20. 20. PROCESSOS Ingestão • Conteúdo • Metadados Armazenamento • Autenticidade • Integridade Gerência • Interface Gráfica • Integração • Baixo custo Acesso • Proxy • Migração
    21. 21. DIAGRAMA OAIS
    22. 22. HARVEST & INGEST Ingestão Planejamento de Preservação Repositório de dados
    23. 23. INGESTÃO (PERIÓDICOS SEER/OJS) Periódico / Conteúdo Base de dados Crawler Unidade de Arquivamento (UA) Metadados Outros dados Ciencia da Informação LOCKSS Plugin
    24. 24. TESTE DE INTEGRIDADE Gestão de Dados Administração
    25. 25. PRESERVAÇÃO – TESTE DE INTEGRIDADE Votes
    26. 26. PRESERVAÇÃO – TESTE DE INTEGRIDADE UAs Conteúdo preservado 8D77GFDGH77SD 44SDF66SDG9HJ7 SD56FS6DF4SD4 G7H88SDF66DF6 DF7S5DF5SDF4S D4F79DF8 DAEMON Hash Identificação
    27. 27. PRESERVAÇÃO – TESTE DE INTEGRIDADE Teste de integridade Ingestão
    28. 28. PRESERVAÇÃO Polls - Integridade Ingestão Hash - Identificação UA Conteúdo preservado 1 3 8D77GFDG H77SD44S DF66 DAEMON Hash Votes - Quorum 1 2
    29. 29. ACESSO Planejamento de Preservação Administração Acesso Gestão de Dados
    30. 30. ACESSO - “MIGRATION ON ACCESS” Leitor Caixa LOCKSS Formato acessível On the fly Formato obsoleto (Sem possibilidade de leitura) Conteúdo 1 2 6 5 3 4
    31. 31. GERÊNCIA Planejamento de Preservação Administração Acesso Gestão de Dados Repositório de dados
    32. 32. GERÊNCIA - INTERFACE GRÁFICA
    33. 33. GERÊNCIA – ADICIONANDO TÍTULOS
    34. 34. GERÊNCIA - SEGURANÇA
    35. 35. GERÊNCIA – TRANSFERÊNCIA
    36. 36. GERÊNCIA – TRANSFERÊNCIA
    37. 37. TRANSFERÊNCIA (PROXY)
    38. 38. DÚVIDAS?
    39. 39. REFERÊNCIAS K. SKINNER AND M. SCHULTZ - A Guide to Distributed Digital Preservation., Eds. (Atlanta, GA: Educopia Institute, 2010). LOCKSS TEAM – LOCKSS Support pages. Disponível em: < http://www.lockss.org/support > Acesso: 15 nov. 2013. MARDERO ARELLANO, Miguel Angel. Critérios para a preservação digital da informação científica. 2008. 354 f. Tese (doutorado) - Universidade de Brasília, Departamento de Ciência da Informação, 2008. Disponível em: <http://eprints.rclis.org/15412/1/Tese_Miguel_Angel_Mardero_Arellano.pdf>. Acesso em: 20 nov. 2013. REICH, Victoria A. Lots of copies keep stuff safe as a cooperative archiving solution for ejournals. Issues in Science and Technology Librarianship, [s.l.], fall 2002. Disponível em: <http://www.library.ucsb.edu/istl/02-fall/article1.html>. Acesso em: 09 out. 2013. TANENBAUM, A. S., STEEN, M. V. - Distributed Systems: Concepts and Design. 4ª Edição (2005).
    40. 40. http://carniana.ibict.br arthurheleno@ibict.br Obrigado! The end

    ×