O documento descreve a arquitetura do Google File System (GFS), que armazena arquivos em chunks replicados em servidores para fornecer alto desempenho, tolerância a falhas e escalabilidade. O GFS usa servidores mestre para armazenar metadados e servidores de chunks para armazenar os dados, com operações como leitura, gravação e snapshot para acesso aos arquivos. Ele usa replicação e verificação de checksums para garantir a integridade e disponibilidade dos dados.
2. Introdução
• Motivação
• Arquitetura
o Chunkservers
o Master Servers
o Metadata
• Operações
o read
o write
o record append
o snapshot
• Tolerância a falhas
• Conclusão
2
12. Metadados
• Informações sobre chunk
o Nome do local de arquivo e do chunk
o Mapeamento de arquivos para chunk
o Localização de cada chunk e suas réplicas
12
35. Alta disponibilidade
• Baseia-se em duas estratégias simples:
o recuperação rapida
o replicação
• Recuperação rápida:
o reiniciar e carregar seu estado anterior em questão de
segundos
o não existe diferenciação entre terminação normal e
anormal
35
36. Alta disponibilidade
• Replicação:
o cada chunk é replicado em múltiplos chunkservers
o usuário pode especificar o nível de replicação (o padrão
é 3)
o logs em master servers também são replicados
36
41. Ferramentas de diagnóstico
• Todos os servidores GFS geram logs de eventos:
o chunkservers conectando e desconectando
o todas as requisições e respostas
• Funcionalidade poderosa para:
o encontrar erros
o isolar problemas
o medir desempenho
o realizar testes
• Baixo custo
• Logs podem ser removidos sempre que necessário
41
42. Conclusão
• Atende as principais propostas:
o desempenho
o tolerância a falhas
o escalabilidade
• Fácil manutenção e barata
• Permite desenvolver aplicações de grande porte na escala
de toda a internet
42