Gerenciamento de
incidentes e de problemas
Ricardo Luis dos Santos




© 2009 Hewlett-Packard Development Company, L.P.
The information contained herein is subject to change without notice
Roteiro

    •   Definições
    •   Gerenciamento de incidentes
    •   Gerenciamento de problemas
    •   Workflow de diagnóstico




2
Definições

    •   Incidente é a interrupção do serviço ou redução
        na qualidade deste (falhas, questionamentos dos
        usuários, entre outros)
    •   Problema é a causa para um ou mais incidentes
        (deve ser determinado)

                               Hd do servidor queimou
                                                                  Problema

                                                                  Incidentes


        Páginas web off-line   Erro ao acessar o mail   Falha ao acessar o home


3
Gerenciamento de incidentes
    Fluxo do processo
                                                         Realização
                                                 SIM    Realização
                               Solicitação             Realização
                                                         do Serviço
                                                        do Serviço
       Identificação           de Serviço              do Serviço



                                         NÃO
           Log
                               Priorização

                                                       Diagnóstico
      Categorização


                         SIM
      Procedimento de                                   Resolução
                                 Grave
     Incidentes Graves



                                         NÃO           Encerramento


                         SIM                   NÃO
      Gerenciamento            Realocação
      de Realocação            Necessária




8
Gerenciamento de incidentes
     Categorização

         Hardware



                     Servidor



                                    Disco rígido



                                                    Falha no disco

         Software



                     Aplicativos



                                   Banco de dados



                                                    Erro de senha


11
Gerenciamento de incidentes
     Priorização

     •   Cada incidente deverá possuir uma prioridade
         normalmente influenciada:
         • Urgência
         • Impacto

                                                       Impacto
                  Urgência                    Alto               Médio     Baixo
                                 Alto          1                  2             3
                                 Médio         2                  3             4
                                 Baixo         3                  4             5
                Código                   1         2               3        4          5
               Descrição            Crítico     Alto             Médio    Baixo     Planejar
          Tempo para resolução      1 hora    8 horas        24 horas    48 horas   Planejar


12
Gerenciamento de problemas
     Fluxo do processo
                                   Investigação e
                                                       CMS
                                     Diagnóstico


        Detecção
                                                                            Revisão de
                                       Solução                           problemas graves
                                                       KEDB
          Log                SIM
                                              NÃO              NÃO

      Categorização                Criar registro no
                                                                                     SIM
                                        KEDB                     Grave



       Priorização
                                      Mudança
                                     necessária
                       SIM                                    Encerramento
       Gerenciamento
     Gerenciamento
     Gerenciamento
        de mudanças
       de mudanças                             NÃO
      de mudanças

                                     Resolução


19
Gerenciamento de problemas

     •   Para determinar a raiz do problema algumas
         técnicas são úteis:
         • Kepner e Trogoe
         • Brainstorming
         • Diagramas de Ishikawa
         • Análise de Pareto




24
Gerenciamento de problemas
         Kepner e Trogoe

     •   Esta técnica define as seguintes etapas:
          • Definição do problema
          • Descrição do problema (identificação, localização,
            tempo e tamanho)
          • Estabelecimento de possíveis causas
          • Testar a causa mais provável
          • Verificar a verdadeira causa




25
Gerenciamento de problemas
       Diagrama de Ishikawa

       •    Técnica para documentar causas e efeitos que
            podem ser úteis para ajudar a descobrir onde
            está o problema ou melhorar essa identificação

                              Rede                           Externos
                 Roteador                              DoS
           Falha de                    Ataque hacker
           hardware
                      Placa de rede               Arquivos deletados
                                                                                    Site inacessível
                      DNS

     Configuração                          Acesso bloqueado
                                                                                      Internet
                                                                                    inacessível
                        Apache                  Firewall do cliente     Conta não
                                                                          paga
                            Servidor                          Outros


26
Gerenciamento de problemas
     Análise de Pareto

     •    Esta técnica é importante para diferenciar
          potenciais causas de outras mais triviais
                                                                                                   Site inacessível
                                                                    100
                     Site inacessível
                                                                         80


                                                    Probabilidade em %
                 Causas                 %    Acum
                                                                         60
           Arquivos deletados           30   30%
                                                                         40   30             25
                  DoS                   25   55%                                                      15            15
                                                                         20                                                         10
                                                                                                                                                   3                 2
                Roteador                15   70%
                                                                         0




                                                                                                                                                  Internet inaces
                                                                              Arquivos del
              Placa de rede             15   85%



                                                                                             DoS


                                                                                                       Roteador




                                                                                                                                    Acesso bloq
                                                                                                                    Placa de rede




                                                                                                                                                                    Config do serv
            Acesso bloqueado            10   95%
           Internet inacessível         3    98%
         Configuração do servidor       2    100%

                                                                                                                  Causas
                                                                                                           Percentagem


27
Esboço do Modelo XII




34   29 September, 2009
Inputs/Outputs

•    Inputs
     • Descrição do incidente
     • Categoria
     • Características
     • Elemento da Infra-estrutura


•    Outputs
     • Causa raiz do problema/incidente



35   29 September, 2009
Inputs/Outputs

•    Inputs
     • Descrição do incidente: Ao acessar o site, navegador
       responde com a mensagem “Servidor inacessível”
     • Categoria: Internet → Servidor
     • Características: Site Inacessível
     • Elemento da Infra-estrutura: 432022 (Comp. Lab 210)


•    Outputs
     • Causa Raiz: Placa de rede do usuário não configurada


36   29 September, 2009
Workflow de diagnóstico




37   29 September, 2009

Gerenciamento de problemas e de incidentes

  • 1.
    Gerenciamento de incidentes ede problemas Ricardo Luis dos Santos © 2009 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice
  • 2.
    Roteiro • Definições • Gerenciamento de incidentes • Gerenciamento de problemas • Workflow de diagnóstico 2
  • 3.
    Definições • Incidente é a interrupção do serviço ou redução na qualidade deste (falhas, questionamentos dos usuários, entre outros) • Problema é a causa para um ou mais incidentes (deve ser determinado) Hd do servidor queimou Problema Incidentes Páginas web off-line Erro ao acessar o mail Falha ao acessar o home 3
  • 4.
    Gerenciamento de incidentes Fluxo do processo Realização SIM Realização Solicitação Realização do Serviço do Serviço Identificação de Serviço do Serviço NÃO Log Priorização Diagnóstico Categorização SIM Procedimento de Resolução Grave Incidentes Graves NÃO Encerramento SIM NÃO Gerenciamento Realocação de Realocação Necessária 8
  • 5.
    Gerenciamento de incidentes Categorização Hardware Servidor Disco rígido Falha no disco Software Aplicativos Banco de dados Erro de senha 11
  • 6.
    Gerenciamento de incidentes Priorização • Cada incidente deverá possuir uma prioridade normalmente influenciada: • Urgência • Impacto Impacto Urgência Alto Médio Baixo Alto 1 2 3 Médio 2 3 4 Baixo 3 4 5 Código 1 2 3 4 5 Descrição Crítico Alto Médio Baixo Planejar Tempo para resolução 1 hora 8 horas 24 horas 48 horas Planejar 12
  • 7.
    Gerenciamento de problemas Fluxo do processo Investigação e CMS Diagnóstico Detecção Revisão de Solução problemas graves KEDB Log SIM NÃO NÃO Categorização Criar registro no SIM KEDB Grave Priorização Mudança necessária SIM Encerramento Gerenciamento Gerenciamento Gerenciamento de mudanças de mudanças NÃO de mudanças Resolução 19
  • 8.
    Gerenciamento de problemas • Para determinar a raiz do problema algumas técnicas são úteis: • Kepner e Trogoe • Brainstorming • Diagramas de Ishikawa • Análise de Pareto 24
  • 9.
    Gerenciamento de problemas Kepner e Trogoe • Esta técnica define as seguintes etapas: • Definição do problema • Descrição do problema (identificação, localização, tempo e tamanho) • Estabelecimento de possíveis causas • Testar a causa mais provável • Verificar a verdadeira causa 25
  • 10.
    Gerenciamento de problemas Diagrama de Ishikawa • Técnica para documentar causas e efeitos que podem ser úteis para ajudar a descobrir onde está o problema ou melhorar essa identificação Rede Externos Roteador DoS Falha de Ataque hacker hardware Placa de rede Arquivos deletados Site inacessível DNS Configuração Acesso bloqueado Internet inacessível Apache Firewall do cliente Conta não paga Servidor Outros 26
  • 11.
    Gerenciamento de problemas Análise de Pareto • Esta técnica é importante para diferenciar potenciais causas de outras mais triviais Site inacessível 100 Site inacessível 80 Probabilidade em % Causas % Acum 60 Arquivos deletados 30 30% 40 30 25 DoS 25 55% 15 15 20 10 3 2 Roteador 15 70% 0 Internet inaces Arquivos del Placa de rede 15 85% DoS Roteador Acesso bloq Placa de rede Config do serv Acesso bloqueado 10 95% Internet inacessível 3 98% Configuração do servidor 2 100% Causas Percentagem 27
  • 13.
    Esboço do ModeloXII 34 29 September, 2009
  • 14.
    Inputs/Outputs • Inputs • Descrição do incidente • Categoria • Características • Elemento da Infra-estrutura • Outputs • Causa raiz do problema/incidente 35 29 September, 2009
  • 15.
    Inputs/Outputs • Inputs • Descrição do incidente: Ao acessar o site, navegador responde com a mensagem “Servidor inacessível” • Categoria: Internet → Servidor • Características: Site Inacessível • Elemento da Infra-estrutura: 432022 (Comp. Lab 210) • Outputs • Causa Raiz: Placa de rede do usuário não configurada 36 29 September, 2009
  • 16.
    Workflow de diagnóstico 37 29 September, 2009