Modelo de falhasSistemas Distribuídos 2011.2
• Define e classifica as falhas, fornecendo uma base para a  análise de seus efeitos em potencial e para projetar  sistema...
• Defeito – Sistema não cumpre o que foi especificado• Erro – Estado do sistema causado por uma falhaConceitos Básicos
• Estes atributos podem ocorrem tanto em Processos de  sistema como em canais de comunicaçãoOcorrência de falhas
• A tolerância a falhas é a propriedade de um sistema  distribuído que lhe permite recuperar da existência de  falhas, sem...
• Disponibilidade - mede a fração de tempo em que um  serviço está a operar corretamente, isto é, de acordo com  a sua esp...
• Confiabilidade - mede o tempo desde um instante inicial  até à primeira falha, isto é, o tempo que um sistema  funciona ...
• Pontualidade - Em sistemas de tempo real é a garantia de  que o sistema é capaz de obedecer a constrangimentos  temporai...
• Falhas por omissão  • De envio  • De recebimento• Falhas arbitrárias• Falhas de tempo• Falhas de resposta  • Valor  • Tr...
Falhas de omissão e arbitrárias
Falhas de tempo
• Transiente– Ocorre uma vez e depois desaparece– Se a operação for repetida, a falha não acontecera novamente• Intermiten...
• Técnicas para mascarar falhas• Redundância de informação– Bits extras são adicionados para permitir recuperação debits d...
• O termo comunicação confiável é definido em termos de validade e  integridade:   • Validade: qualquer mensagem do buffer...
• Resiliência de Processos– Replicação de processos em grupos– Grupos Simples ou Hierárquicos• Comunicação Confiável Clien...
FIM
Próximos SlideShares
Carregando em…5
×

Modelo de falhas

2.571 visualizações

Publicada em

1 comentário
0 gostaram
Estatísticas
Notas
  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
2.571
No SlideShare
0
A partir de incorporações
0
Número de incorporações
2
Ações
Compartilhamentos
0
Downloads
45
Comentários
1
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Modelo de falhas

  1. 1. Modelo de falhasSistemas Distribuídos 2011.2
  2. 2. • Define e classifica as falhas, fornecendo uma base para a análise de seus efeitos em potencial e para projetar sistemas capazes de tolerar certos tipos de falhas e continuar funcionandoConceito
  3. 3. • Defeito – Sistema não cumpre o que foi especificado• Erro – Estado do sistema causado por uma falhaConceitos Básicos
  4. 4. • Estes atributos podem ocorrem tanto em Processos de sistema como em canais de comunicaçãoOcorrência de falhas
  5. 5. • A tolerância a falhas é a propriedade de um sistema distribuído que lhe permite recuperar da existência de falhas, sem introduzir comportamentos incorretos.Um sistema deste tipo pode mascarar as falhas econtinuar a operar, ou parar e voltar a operarmais tarde, de forma coerente, após reparaçãoda falha.Definições
  6. 6. • Disponibilidade - mede a fração de tempo em que um serviço está a operar corretamente, isto é, de acordo com a sua especificação.Para um sistema ser altamente disponível (highly available)deve combinar um reduzido número de falhas com um curtoperíodo de recuperação das falhas (durante o qual não estádisponível).Definições
  7. 7. • Confiabilidade - mede o tempo desde um instante inicial até à primeira falha, isto é, o tempo que um sistema funciona corretamente sem falhas.Um sistema que falha com grande frequência e recupererapidamente tem baixa confiabilidade, mas altadisponibilidade.Definições
  8. 8. • Pontualidade - Em sistemas de tempo real é a garantia de que o sistema é capaz de obedecer a constrangimentos temporais, isto é, a capacidade que o sistema tem de garantir limites para o tempo que as diferentes ações levam a executar.Definições
  9. 9. • Falhas por omissão • De envio • De recebimento• Falhas arbitrárias• Falhas de tempo• Falhas de resposta • Valor • Transição de estado• Falhas por quedaClassificação
  10. 10. Falhas de omissão e arbitrárias
  11. 11. Falhas de tempo
  12. 12. • Transiente– Ocorre uma vez e depois desaparece– Se a operação for repetida, a falha não acontecera novamente• Intermitente– Ocorre e desaparece por “sua própria vontade”.– Difícil de diagnosticar;• Permanente– Continua a existir até que o componente faltoso seja substituídoTipos
  13. 13. • Técnicas para mascarar falhas• Redundância de informação– Bits extras são adicionados para permitir recuperação debits deteriorados• Redundância de tempo para falhas de omissão– Uma ação é realizada e, então, se for preciso, ela éexecutada novamente.• Redundância física– Componentes físicos replicados são usadosMascaramento de Falhapor Redundância
  14. 14. • O termo comunicação confiável é definido em termos de validade e integridade: • Validade: qualquer mensagem do buffer de envio é entregue ao buffer de recepção de seu destino, independente do tempo necessário para tal. • Integridade: a mensagem recebida é idêntica à enviada e nenhuma mensagem é entregue duas vezes.• A tarefa para preservar a Integridade vem de duas premissas: • Qualquer protocolo que retransmita mensagens, mas não rejeite uma mensagem que entregue duas vezes. • Usuários mal-intencionados que podem injetar mensagens modificadas, reproduzir mensagens antigas ou falsificar mensagens.Confiabilidade nacomunicação Um para Um
  15. 15. • Resiliência de Processos– Replicação de processos em grupos– Grupos Simples ou Hierárquicos• Comunicação Confiável Cliente-Servidor– Falhas de Comunicação– Canal de Comunicação pode exibir falhas por queda, por omissão, arbitrarias– TCP(ponto-a-ponto); RPC• Comunicação Confiável de Grupo– Como implementar entrega confiável de mensagens a todos os processos?• Comprometimento Distribuído– Envolve a realização de uma operação por cada membro de um grupo deprocessos ou por absolutamente nenhum.Estratégias de Tolerânciaa Falhas
  16. 16. FIM

×