O documento discute o gerenciamento de incidentes e problemas. Ele define incidentes e problemas, e descreve os processos de gerenciamento de incidentes e problemas, incluindo fluxos de trabalho, categorização, priorização e técnicas para determinar a causa raiz como Kepner-Tregoe e diagramas de Ishikawa.
2. Roteiro
• Definições
• Gerenciamento de incidentes
• Gerenciamento de problemas
• Workflow de diagnóstico
2
3. Definições
• Incidente é a interrupção do serviço ou redução
na qualidade deste (falhas, questionamentos dos
usuários, entre outros)
• Problema é a causa para um ou mais incidentes
(deve ser determinado)
Hd do servidor queimou
Problema
Incidentes
Páginas web off-line Erro ao acessar o mail Falha ao acessar o home
3
4. Gerenciamento de incidentes
Fluxo do processo
Realização
SIM Realização
Solicitação Realização
do Serviço
do Serviço
Identificação de Serviço do Serviço
NÃO
Log
Priorização
Diagnóstico
Categorização
SIM
Procedimento de Resolução
Grave
Incidentes Graves
NÃO Encerramento
SIM NÃO
Gerenciamento Realocação
de Realocação Necessária
8
5. Gerenciamento de incidentes
Categorização
Hardware
Servidor
Disco rígido
Falha no disco
Software
Aplicativos
Banco de dados
Erro de senha
11
6. Gerenciamento de incidentes
Priorização
• Cada incidente deverá possuir uma prioridade
normalmente influenciada:
• Urgência
• Impacto
Impacto
Urgência Alto Médio Baixo
Alto 1 2 3
Médio 2 3 4
Baixo 3 4 5
Código 1 2 3 4 5
Descrição Crítico Alto Médio Baixo Planejar
Tempo para resolução 1 hora 8 horas 24 horas 48 horas Planejar
12
7. Gerenciamento de problemas
Fluxo do processo
Investigação e
CMS
Diagnóstico
Detecção
Revisão de
Solução problemas graves
KEDB
Log SIM
NÃO NÃO
Categorização Criar registro no
SIM
KEDB Grave
Priorização
Mudança
necessária
SIM Encerramento
Gerenciamento
Gerenciamento
Gerenciamento
de mudanças
de mudanças NÃO
de mudanças
Resolução
19
8. Gerenciamento de problemas
• Para determinar a raiz do problema algumas
técnicas são úteis:
• Kepner e Trogoe
• Brainstorming
• Diagramas de Ishikawa
• Análise de Pareto
24
9. Gerenciamento de problemas
Kepner e Trogoe
• Esta técnica define as seguintes etapas:
• Definição do problema
• Descrição do problema (identificação, localização,
tempo e tamanho)
• Estabelecimento de possíveis causas
• Testar a causa mais provável
• Verificar a verdadeira causa
25
10. Gerenciamento de problemas
Diagrama de Ishikawa
• Técnica para documentar causas e efeitos que
podem ser úteis para ajudar a descobrir onde
está o problema ou melhorar essa identificação
Rede Externos
Roteador DoS
Falha de Ataque hacker
hardware
Placa de rede Arquivos deletados
Site inacessível
DNS
Configuração Acesso bloqueado
Internet
inacessível
Apache Firewall do cliente Conta não
paga
Servidor Outros
26
11. Gerenciamento de problemas
Análise de Pareto
• Esta técnica é importante para diferenciar
potenciais causas de outras mais triviais
Site inacessível
100
Site inacessível
80
Probabilidade em %
Causas % Acum
60
Arquivos deletados 30 30%
40 30 25
DoS 25 55% 15 15
20 10
3 2
Roteador 15 70%
0
Internet inaces
Arquivos del
Placa de rede 15 85%
DoS
Roteador
Acesso bloq
Placa de rede
Config do serv
Acesso bloqueado 10 95%
Internet inacessível 3 98%
Configuração do servidor 2 100%
Causas
Percentagem
27
14. Inputs/Outputs
• Inputs
• Descrição do incidente
• Categoria
• Características
• Elemento da Infra-estrutura
• Outputs
• Causa raiz do problema/incidente
35 29 September, 2009
15. Inputs/Outputs
• Inputs
• Descrição do incidente: Ao acessar o site, navegador
responde com a mensagem “Servidor inacessível”
• Categoria: Internet → Servidor
• Características: Site Inacessível
• Elemento da Infra-estrutura: 432022 (Comp. Lab 210)
• Outputs
• Causa Raiz: Placa de rede do usuário não configurada
36 29 September, 2009