Este documento descreve as políticas de tolerância a falhas e recuperação de desastres para a infraestrutura de TI de uma organização. Ele define conceitos como falha, desastre e tolerância a falhas, e discute planos de contingência para lidar com situações físicas, lógicas e administrativas, como falhas em equipamentos, senhas fracas e falta de documentação.
1. REDES DE COMPUTADORES<br />ADMINISTRAÇÃO DE REDES DE COMPUTADORES<br />MAURICIO DE BARROS<br />ANDERSON ZARDO<br />Política de Tolerância a Falhas e<br /> Proteção/Recuperação de Desastres<br />CAXIAS DO SUL<br />JULHO/2011<br />Esta política tem por seu objetivo primordial a adoção de práticas que visam à manutenção dos serviços essenciais ao funcionamento da infraestrutura de TI, permitindo a mesma dar o suporte essencial ao funcionamento e a continuidade do negócio. Visam, portanto o completo reestabelecimento dos serviços, causando o menor impacto possível aos colaboradores e clientes.<br />Conceitos:<br /> Falha: Uma falha é evento inesperado que pode potencialmente provocar a perda total ou parcial da funcionalidade de algum sistema/servidor/infraestrutura<br />Desastre: É provocado por uma falha que não foi tratada a tempo de minimizar as consequências (prejuízos financeiros, morais, etc). Também pode compreender consequências ocasionadas por catástrofes de ordem natural, ataques terroristas, etc<br />Tolerância a falhas: Remete a capacidade de algum sistema/servidor/infraestrutura responder a um evento de falha de modo que o processo/trabalho não seja comprometido<br />Recuperação de Desastres: É o processo de restauração de um computador/servidor ou sistemas após o acontecimento de um desastre, a situação ideal é que as técnicas de restauração e as equipes de suporte retornem qualquer situação ao mesmo estado em que estavam no momento anterior ao acontecimento do desastre.<br />Plano de Contingência: Consiste em uma série de medidas a serem tomadas em caso de alguma situação que pode potencialmente causar dano ou prejuízo vir a acontecer.<br />Situações:<br />As situações que trataremos à seguir podem ser classificadas em três grupos: Físicas, Lógicas e Administrativas.<br />Situação Física: Ativos/Equipamentos<br />Situação/Evento: Falhas em ativo ou equipamento de rede ou servidores que ocasionem interrupção total ou parcial da função por ele desempenhada.<br />Possíveis Falhas: Surto na rede elétrica ocasionando queima de modulo de alimentação ou falha provocada por defeito do equipamento.<br />Tolerância: Se for possível, esse equipamento também deve estar operando em redundância com outro igual ou semelhante devendo entrar em operação imediatamente quando este falhar.<br />Proteção: Equipamentos que possuem recurso de redundância para fontes de alimentação devem estar preparados para usá-lo, tomando o cuidado para que cada fonte seja conectada a um circuito elétrico distinto. Se possível, deve haver um equipamento igual ou semelhante disponível e pronto para operar, devendo ser posto em operação assim que a falha for constatada. Como medida adicional, esse equipamento deve estar coberto por contrato de manutenção ou garantia para que possa ser reparado ou mesmo substituído rapidamente.<br />Desastre: Inoperância da rede ou serviços da empresa, ocasionando prejuízos por oportunidades de negociação perdidas, prazos estourados de entrega de documentos, podendo implicar em multas à organização.<br />Recuperação: Assim que constatado o defeito do equipamento, o mesmo deve ser substituído por um igual ou semelhante que cumpre as mesmas funções já preparado para o tipo de operação que irá exercer. Após isso, deve-se tomar as providências necessárias para o reparo ou substituição em garantia do equipamento que apresentou problemas, devendo esse estar apto para operar em caso de falha de outro equipamento.<br />Situação Lógica: Política de Senhas<br />Situação/Evento: Senhas fracas e óbvias podem ser configuradas pelos usuários em seu ambiente de trabalho.<br />Possíveis Falhas: Não há recurso que exija do usuário a configuração de senhas seguras. Usuários costumam a deixar anotadas suas senhas em locais de fácil acesso à estranhos e/ou terceiros. <br />Tolerância: No momento de cadastrar uma senha, o usuário será avisado que está a cadastrando uma senha fácil (poucos caracteres e predominantemente letras do alfabeto latino ou numerais, sequencias numéricas que sugerem datas, etc...) orientando o mesmo a procurar aumentar a complexidade desta senha.<br />Proteção: O Sistema DE FATO impede a utilização de senhas fracas, exigindo que a mesma possua um grau de complexidade adequado (letras + números + algum caractere especial, por exemplo). <br />Desastre: Acesso indevido a informações e recursos, danos causados por usuários mal intencionados usando o login de outros para motivo escuso (envio de e-mail se passando por outro, etc)<br />Recuperação: Se ouve perda de informação, essa deve estar coberta por backup acessível apenas aos administradores de sistema, que mediante solicitação, podem reverter os arquivos que o usuário vítima da atitude de má fé pode ter dado falta. Para tal, é necessário que os arquivos estejam no servidor e não na estação do mesmo. Em caso de uso de conta de e-mail que não seja a sua, deve ser investigado os logs de acesso para ver de qual máquina partiu o acesso e, com isso, investigar pelos meios disponíveis (câmeras de vigilância no horário do acesso, se houver, etc...)<br />Situação Administrativa: Documentação de Suporte<br />Situação/Evento: A Documentação não está acessível.<br />Possíveis Falhas: Problemas da mídia de armazenamento, problemas no compartilhamento da unidade.<br />Tolerância: Há cópia impressa ou mesmo em outro local da documentação.<br />Proteção: Permissão de acesso ao local original da documentação para que apenas administradores do sistema possam realizar alterações.<br />Desastre: A Falta da documentação prejudica o andamento da atividade de suporte, e as consequências são diretamente proporcionais à criticidade do serviço ao qual se está dando assistência no momento. <br />Recuperação: Buscar orientação com outros técnicos que possuam plena experiência no assunto para prestar auxílio para resolver a situação que originou o desastre. Buscar orientação dessas mesmas pessoas para que se possa elaborar novamente a documentação.<br />