Tolerância a Falhas
Carlos Oberdan Rolim
Ciência da Computação
Técnicas para alcançar dependabilidade

Técnicas e métodos para alcançar a
dependabilidade desejada
Tolerância a Falhas
Prevenção e remoção de falhas não são suficientes quando
sistema exige alta confiabilidade ou alta dis...
Tolerância a Falhas
Duas classes de técnicas de tolerância a falhas:
Mascaramento:
Falhas não se manifestam como erros (sã...
Fases de Aplicação das técnicas de
Tolerância a Falhas
Primeira Fase: detecção de Erro
Falha primeiro se manifesta como um erro;
Antes da manifestação como erro, a falha está la...
Detecção: Duplicação e comparação
Segunda Fase: Confinamento
Da ocorrência da falha, até o erro ser detectado, pode haver
“espalhamento” de dados inválidos;...
Segunda Fase: Confinamento
Decisões de projeto;
Sistemas, por natureza, não provêem confinamento;
Durante o projeto devem ...
Terceira Fase: Recuperação
Ocorre após a detecção;
Troca do estado atual incorreto para um estado livre de
falhas;
Terceira Fase: Recuperação

Técnicas de Recuperação
Terceira Fase: Recuperação

Recuperação por retorno e por avanço
Quarta Fase: Tratamento
Localizar a origem da falha;
Localizar a falha de forma precisa;
Reparar a falha;
Recuperar o rest...
Quarta Fase: Tratamento
Localizar:
Localização Grosseira e rápida: aplicada sobre um módulo ou
subsistema;
Localização Fin...
Quarta Fase: Tratamento
Diagnóstico: Teste de comparação entre resultados gerados
com resultados previstos:
Manual: execut...
Quarta Fase: Tratamento
Após a localização, a falha é reparada através da remoção
do componente danificado, o reparo pode ...
Quarta Fase: Tratamento
Automático:
Degradação Gradual: Reconfiguração para operação com menor
número de componentes;
Subs...
Mascaramento de Falhas
Garante resposta mesmo na presença de falhas;
A falha não se manifesta como erro;
Em caso de falhas...
Mecanismos para Mascarar Falhas
Redundância
Redundância para aumento de confiabilidade é quase tão
antiga como a história dos computadores;
Todas as técni...
Redundância
Redundância de Informações;
Redundância Temporal;
Redundância de Hardware;
Redundância de software;
Redundância
Serve tanto para detecção de falhas quanto para
mascaramento;
O grau de redundância é diferente para cada caso...
Redundância de Informação
Bits ou sinais extras são armazenados ou transmitidos junto
ao dado;
Servem para deteção de erro...
Redundância Temporal
Repete a computação no tempo;
Evita custos de Hardware;
Aumenta o tempo necessário para realizar uma ...
Redundância Temporal
Aplicações usuais:
Detecção de falhas transitórias: repetindo a computação;
Detecção de falhas perman...
Redundância de Hardware
Baseada da replicação de componentes físicos:
Redundância de Hardware Passiva
Os elementos redundantes são usados para mascarar
falhas;
Todos os elementos executam a me...
Redundância de Hardware Passiva
Redundância de Hardware Passiva
Soluções para contornar a fragilidade do votador:
Construir o votador com componentes de a...
Redundância de Hardware Passiva
TMR com votador Triplo
Redundância de Hardware Passiva
TMR apresenta uma confiabilidade maior que um sistema de
um único componente até a ocorrên...
Redundância de Hardware Passiva
Com o tempo, TMR apresenta uma confiabilidade pior do
que um sistema não redundante;
TMR é...
Redundância de Hardware Passiva

Confiabilidade de TMR
Redundância de Hardware Passiva
NMR (Redundância Modular Múltipla) é a generalização de
TMR
TMR é um caso especial de NMR;...
Próximos SlideShares
Carregando em…5
×

Mecanismo de falhas

1.125 visualizações

Publicada em

mecanismo de falhaq

Publicada em: Educação
0 comentários
2 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

Sem downloads
Visualizações
Visualizações totais
1.125
No SlideShare
0
A partir de incorporações
0
Número de incorporações
2
Ações
Compartilhamentos
0
Downloads
18
Comentários
0
Gostaram
2
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Mecanismo de falhas

  1. 1. Tolerância a Falhas Carlos Oberdan Rolim Ciência da Computação
  2. 2. Técnicas para alcançar dependabilidade Técnicas e métodos para alcançar a dependabilidade desejada
  3. 3. Tolerância a Falhas Prevenção e remoção de falhas não são suficientes quando sistema exige alta confiabilidade ou alta disponibilidade; Sistema deve ser construído usando técnicas de tolerância a falhas;
  4. 4. Tolerância a Falhas Duas classes de técnicas de tolerância a falhas: Mascaramento: Falhas não se manifestam como erros (são mascaradas na origem) Detecção, localização e reconfiguração.
  5. 5. Fases de Aplicação das técnicas de Tolerância a Falhas
  6. 6. Primeira Fase: detecção de Erro Falha primeiro se manifesta como um erro; Antes da manifestação como erro, a falha está latente e não pode ser detectada; Ex. mecanismo de detecção: Duplicação e comparação.
  7. 7. Detecção: Duplicação e comparação
  8. 8. Segunda Fase: Confinamento Da ocorrência da falha, até o erro ser detectado, pode haver “espalhamento” de dados inválidos; O confinamento estabelece limites para a propagação do dano;
  9. 9. Segunda Fase: Confinamento Decisões de projeto; Sistemas, por natureza, não provêem confinamento; Durante o projeto devem ser previstas e implementadas restrições ao fluxo de informações; Estabelecer interfaces de verificação para detecção de erro.
  10. 10. Terceira Fase: Recuperação Ocorre após a detecção; Troca do estado atual incorreto para um estado livre de falhas;
  11. 11. Terceira Fase: Recuperação Técnicas de Recuperação
  12. 12. Terceira Fase: Recuperação Recuperação por retorno e por avanço
  13. 13. Quarta Fase: Tratamento Localizar a origem da falha; Localizar a falha de forma precisa; Reparar a falha; Recuperar o restante do sistema.
  14. 14. Quarta Fase: Tratamento Localizar: Localização Grosseira e rápida: aplicada sobre um módulo ou subsistema; Localização Fina: onde o componente falho é determinado Para os dois tipos de localização é usado diagnóstico.
  15. 15. Quarta Fase: Tratamento Diagnóstico: Teste de comparação entre resultados gerados com resultados previstos: Manual: executado por um operador local ou remoto; Automático: executado pelos componentes livres de falha do sistema.
  16. 16. Quarta Fase: Tratamento Após a localização, a falha é reparada através da remoção do componente danificado, o reparo pode ser: Manual Automático
  17. 17. Quarta Fase: Tratamento Automático: Degradação Gradual: Reconfiguração para operação com menor número de componentes; Substituição: por outro componente disponível no sistema. (usada em sistemas com longos perídos de missão sem possibilidade de reparo manual, sondas espaciais e satélites.
  18. 18. Mascaramento de Falhas Garante resposta mesmo na presença de falhas; A falha não se manifesta como erro; Em caso de falhas permanentes, a localização e o reparo da falha são necessários
  19. 19. Mecanismos para Mascarar Falhas
  20. 20. Redundância Redundância para aumento de confiabilidade é quase tão antiga como a história dos computadores; Todas as técnicas de tolerância a falhas envolvem alguma forma de redundância; Na indústria nacional, o termo utilizado para designar um sistema tolerante a falhas é sistema redundante
  21. 21. Redundância Redundância de Informações; Redundância Temporal; Redundância de Hardware; Redundância de software;
  22. 22. Redundância Serve tanto para detecção de falhas quanto para mascaramento; O grau de redundância é diferente para cada caso; Para mascarar falhas são necessários mais componentes do que para detectar falhas.
  23. 23. Redundância de Informação Bits ou sinais extras são armazenados ou transmitidos junto ao dado; Servem para deteção de erros ou mascaramento de falhas Ex.: Códigos de paridade; Checksums; Códigos de duplicação; Códigos cíclicos.
  24. 24. Redundância Temporal Repete a computação no tempo; Evita custos de Hardware; Aumenta o tempo necessário para realizar uma computação Usada em sistemas onde o tempo não é crítico;
  25. 25. Redundância Temporal Aplicações usuais: Detecção de falhas transitórias: repetindo a computação; Detecção de falhas permanentes: repete-se a computação com dados codificados e decodifica-se o resultado antes da comparação;
  26. 26. Redundância de Hardware Baseada da replicação de componentes físicos:
  27. 27. Redundância de Hardware Passiva Os elementos redundantes são usados para mascarar falhas; Todos os elementos executam a mesma tarefa; O resultado é determinado por votação; Ex: TMR (triple modular redundancy) e NMR (redundância modular com n módulos)
  28. 28. Redundância de Hardware Passiva
  29. 29. Redundância de Hardware Passiva Soluções para contornar a fragilidade do votador: Construir o votador com componentes de alta confiabilidade; Triplicar o votador; Realizar a votação por software;
  30. 30. Redundância de Hardware Passiva TMR com votador Triplo
  31. 31. Redundância de Hardware Passiva TMR apresenta uma confiabilidade maior que um sistema de um único componente até a ocorrência da primeira falha permanente; Depois perde a capacidade de mascarar falhas, apresentando confiabilidade menor que um sistema de um único componente;
  32. 32. Redundância de Hardware Passiva Com o tempo, TMR apresenta uma confiabilidade pior do que um sistema não redundante; TMR é ideal para períodos não longos de missão, suporta apenas uma falha permanente Ideal para falhas temporárias... Uma de cada vez...
  33. 33. Redundância de Hardware Passiva Confiabilidade de TMR
  34. 34. Redundância de Hardware Passiva NMR (Redundância Modular Múltipla) é a generalização de TMR TMR é um caso especial de NMR; O computador de bordo do ônibus espacial é um exemplo de NMR, com n igual a 4 e votação por software.

×