GT Digital PreservationRio de JaneiroSetembro de 2011
Roteiro   ●   Motivação   ●   Serviço proposto   ●   Modelo de replicação   ●   Implementação e arquitetura do       siste...
MotivaçãoImportância dos dados digitais  ●   Nossa herança cultural tem sido preservada em      muitos materiais diferente...
MotivaçãoPreservação digital ●   Boa parte das instituições tem grande     dificuldade para preservar seus dados ●   Dific...
MotivaçãoPreservação digital  ●   Redes de compartilhamento de arquivos Peer-      to-Peer não atendem os requisitos de   ...
Serviço propostoObjetivo   Oferecer um sistema de arquivamento digital      baseado em armazenamento distribuído   garanti...
Serviço propostoAlgumas considerações importantes ●   O sistema é baseado no modelo de federação      ●   Facilidade de ad...
Serviço propostoAlgumas considerações importantes ●   O sistema é baseado no modelo de federação      ● Facilidade de ades...
Serviço propostoRequisitos para implementação ●   O sistema deve ser o menos intrusivo possível ●   Evitar sobrecargas, es...
O ModeloModelo de replicação    ●   Conjunto de repositórios (computadores        executando o sistema) distribuídos      ...
O ModeloDefinições do modelo   ●   Uma métrica de confiabilidade é associada a       cada repositório   ●   Cada item é ar...
O Modelo●1 - ((1-0.99) * (1-0.95) * (1-0.85)) = 99.993%●1 - ((1-0.95) * (1-0.95) * (1-0.85) * (1-0.75)) = 99.991%
AuditoriaO processo de auditoria    ●   Réplicas podem ser perdidas durante o tempo    ●   É necessário verificar periodic...
Implementação do ProtótipoImplementação   ●   Repositórios são PC rodando alguma       distribuição Linux   ●   Uso de fer...
Arquitetura do protótipo
ImplementaçãoCamada de Armazenamento ●   Responsável pelo armazenamento das réplicas     dos objetos digitais ●   São impl...
ImplementaçãoCamada de Gerenciamento ●   Responsável por gerenciar os objetos do     repositório para garantir os níveis d...
ImplementaçãoEstratégia para seleção de réplicas ●   Escolhemos aleatoriamente um conjunto de     repositórios candidatos ...
Simulação   ●     Espaço total: 200TB   ● Utilização de 99% do espaço   ● Total de ítens: 58.000   ● 48.437.231MB (48TB)N....
100 anos sem auditoria
100 anos com auditoriaImplementação
500 anos com auditoria
500 anos sem auditoria           Tudo foi perdido!
ImplementaçãoCamada da Interface  ●   A padronização da comunicação entre as      aplicações e a camada de gerenciamento é...
ImplementaçãoCamada de Aplicações ●   Diversas aplicações podem necessitar ou desejar     um serviço de preservação ●   Us...
ImplementaçãoCamada de Aplicações ●   Diversas aplicações podem necessitar ou desejar     um serviço de preservação ●   Us...
Protótipo no PlanetlabO Ambiente ●   Rede formada por milhares de computadores     espalhados pelo planeta ●   Nodos do sl...
Protótipo no PlanetlabAvaliação  ●   A implantação no Plab obrigou a refinar a      implementação tornando o sistema mais ...
Protótipo no PlanetlabAvaliação ●   Principais funcionalidades estão implementadas ●   As decisões iniciais de projetos se...
Protótipo no PlanetlabImplementaçãoAvaliação ●   Principais funcionalidades estão implementadas ●   As decisões iniciais d...
Protótipo no PlanetlabPara uma nova fase ●   Estimar a confiabilidade de cada repositório ●   Compartilhamento das chaves ...
Conclusão e Trabalhos Futuros ●   O problema atacado é relevante ●   O modelo parece adequado e o protótipo mostra     a v...
Próximos SlideShares
Carregando em…5
×

Apresentação GT - Digital Preservation

361 visualizações

Publicada em

Apresentação geral do GT - Digital Preservarion, em 01 de setembro de 2011, na Escola de Redes da RNP, no Rio de Janeiro.

Publicada em: Negócios
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
361
No SlideShare
0
A partir de incorporações
0
Número de incorporações
1
Ações
Compartilhamentos
0
Downloads
2
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Apresentação GT - Digital Preservation

  1. 1. GT Digital PreservationRio de JaneiroSetembro de 2011
  2. 2. Roteiro ● Motivação ● Serviço proposto ● Modelo de replicação ● Implementação e arquitetura do sistema ● Protótipo no PlanetLab ● Conclusão
  3. 3. MotivaçãoImportância dos dados digitais ● Nossa herança cultural tem sido preservada em muitos materiais diferentes, incluindo rocha, couro, seda, papel e outros ● Hoje uma quantidade considerável de informação está sendo produzida em formato digital ● Curiosamente o meio digital é mais vulnerável a deterioração que os meios convencionais
  4. 4. MotivaçãoPreservação digital ● Boa parte das instituições tem grande dificuldade para preservar seus dados ● Dificuldades principais: ● Custos com hardware e infra-estrutura ● Ausência de pessoal especializado ● O volume de informação armazenada cresce constantemente
  5. 5. MotivaçãoPreservação digital ● Redes de compartilhamento de arquivos Peer- to-Peer não atendem os requisitos de preservação digital pois previligiam conteúdo popular ● Nuvens computacionais não oferecem as garantias de longo prazo necessárias ● Além de considerar as falhas de hardware e software é necessário considerar falhas organizacionais e humanas
  6. 6. Serviço propostoObjetivo Oferecer um sistema de arquivamento digital baseado em armazenamento distribuído garantindo preservação de dados a baixo custo por períodos de tempo indefinidamente longos
  7. 7. Serviço propostoAlgumas considerações importantes ● O sistema é baseado no modelo de federação ● Facilidade de adesão é importante ● Os dados são imutáveis ● Os servidores de armazenamento considerados são tipicamente PCs com arrays de disco SATA ● Desempenho para recuperação dos dados não é uma preocupação ● Heterogeneidade é desejável
  8. 8. Serviço propostoAlgumas considerações importantes ● O sistema é baseado no modelo de federação ● Facilidade de adesão é importante ● Os dados são imutáveis ● Os servidores de armazenamento considerados são tipicamente PCs com arrays de disco SATA ● Desempenho para recuperação dos dados não é uma preocupação ● Heterogeneidade é desejável
  9. 9. Serviço propostoRequisitos para implementação ● O sistema deve ser o menos intrusivo possível ● Evitar sobrecargas, especialmente em disco ● Utilização de ferramentas e protocolos com implementações seguras e amplamente disponíveis ● Instalável em uma grande variedade de plataformas
  10. 10. O ModeloModelo de replicação ● Conjunto de repositórios (computadores executando o sistema) distribuídos geograficamente ● Repositórios podem ser desde servidores de alta-disponibilidade instalados em centros de dados até desktops comuns ● A unidade de preservação é um item ou objeto digital
  11. 11. O ModeloDefinições do modelo ● Uma métrica de confiabilidade é associada a cada repositório ● Cada item é armazenado com uma confiabilidade desejada que reflete a importância do item ● Para atender a confiabilidade desejada para um item, réplicas são criadas nos repositórios
  12. 12. O Modelo●1 - ((1-0.99) * (1-0.95) * (1-0.85)) = 99.993%●1 - ((1-0.95) * (1-0.95) * (1-0.85) * (1-0.75)) = 99.991%
  13. 13. AuditoriaO processo de auditoria ● Réplicas podem ser perdidas durante o tempo ● É necessário verificar periodicamente a existência destas réplicas ● Quanto maior o número de auditorias maior a confiabilidade obtida ● Entretanto esse intervalo de tempo não pode ser pequeno
  14. 14. Implementação do ProtótipoImplementação ● Repositórios são PC rodando alguma distribuição Linux ● Uso de ferramentas padrão do sistema ● Bash scripts, linguagem C e Java ● Software Livre GPL
  15. 15. Arquitetura do protótipo
  16. 16. ImplementaçãoCamada de Armazenamento ● Responsável pelo armazenamento das réplicas dos objetos digitais ● São implementadas as operações de transferência de objetos digitais entre repositórios (replicação) e de verificação periódica da integridade do conteúdo das réplicas ● Secure Shell (SSH) e Rsync
  17. 17. ImplementaçãoCamada de Gerenciamento ● Responsável por gerenciar os objetos do repositório para garantir os níveis de confiabilidade ● Inserção, auditoria, recuperação e consulta de objetos
  18. 18. ImplementaçãoEstratégia para seleção de réplicas ● Escolhemos aleatoriamente um conjunto de repositórios candidatos a armazenar as réplicas de um determinado item ● Para este conjunto de repositórios, calculamos o intervalo de auditoria necessário para atingir a confiabilidade desejada ● O intervalo de auditoria mínimo é configurado pelo administrador local do sistema
  19. 19. Simulação ● Espaço total: 200TB ● Utilização de 99% do espaço ● Total de ítens: 58.000 ● 48.437.231MB (48TB)N. rep. tam(MB) conf(%) var.uniform(%) min.audit(dias) var.uniform(%) 50 1000000 80 10 30 10 50 1000000 90 10 30 10 50 1000000 80 10 45 10 50 1000000 90 10 45 10
  20. 20. 100 anos sem auditoria
  21. 21. 100 anos com auditoriaImplementação
  22. 22. 500 anos com auditoria
  23. 23. 500 anos sem auditoria Tudo foi perdido!
  24. 24. ImplementaçãoCamada da Interface ● A padronização da comunicação entre as aplicações e a camada de gerenciamento é realizada por um serviço web ● Web Service (SOAP, WSDL, Java) ● Inserir, consultar e recuperar
  25. 25. ImplementaçãoCamada de Aplicações ● Diversas aplicações podem necessitar ou desejar um serviço de preservação ● Usuário pode inserir, consultar e recuperar seus arquivos ● Escolhemos o Dspace (sistema de biblioteca digitais utilizado por mais de 1000 instituições)
  26. 26. ImplementaçãoCamada de Aplicações ● Diversas aplicações podem necessitar ou desejar um serviço de preservação ● Usuário pode inserir, consultar e recuperar seus arquivos ● Escolhemos o Dspace (sistema de biblioteca digitais utilizado por mais de 1000 instituições)
  27. 27. Protótipo no PlanetlabO Ambiente ● Rede formada por milhares de computadores espalhados pelo planeta ● Nodos do slice estão quase sempre sobrecarregados ● Em muitos casos podemos dizer que as condições oferecidas são piores que a realidade
  28. 28. Protótipo no PlanetlabAvaliação ● A implantação no Plab obrigou a refinar a implementação tornando o sistema mais robusto ● Devemos ampliar o número de repositórios no futuro próximo ● E utilizar essa rede para preservar o acervo dos 100 anos da UFPR
  29. 29. Protótipo no PlanetlabAvaliação ● Principais funcionalidades estão implementadas ● As decisões iniciais de projetos se mostraram acertadas ● Existe um bom número de interessados em utilizar o sistema
  30. 30. Protótipo no PlanetlabImplementaçãoAvaliação ● Principais funcionalidades estão implementadas ● As decisões iniciais de projetos se mostraram acertadas ● Dissertações e TCC também foram produzidos ● Existe um bom número de interessados em utilizar o sistema
  31. 31. Protótipo no PlanetlabPara uma nova fase ● Estimar a confiabilidade de cada repositório ● Compartilhamento das chaves SSH ● Sistema de Indexação ● Controle do consumo de recursos ● Ferramentas para operação do serviço ● O modelo de governança a ser adotado
  32. 32. Conclusão e Trabalhos Futuros ● O problema atacado é relevante ● O modelo parece adequado e o protótipo mostra a viabilidade prática do serviço ● Integrar mais nodos do PlanetLab e também ● Fase de “acabamento” do projeto: versão final da documentação, novo site, etc.

×