O documento descreve o processo de gerenciamento de incidentes da ITIL, definindo incidente, suas classificações e o ciclo de vida completo de um incidente, desde sua identificação até o encerramento, passando por atividades como registro, categorização, priorização, diagnóstico, escalação, investigação, resolução e recuperação.
1. GERENCIAMENTO DE INCIDENTES
Incidente é definido como uma interrupção não planejada de um serviço de TI ou redução
da qualidade de um serviço de TI ou alguma falha de IC que ainda não causou impacto
em um serviço de TI (por exemplo, falha de um disco em um conjunto de discos
espelhados). Qualquer situação que não é parte da operação padrão de um serviço, uma
degradação no serviço de TI (por exemplo, uma lentidão no acesso) também é
considerada um incidente.
O glossário oficial da ITIL define o gerenciamento de incidentes como sendo o processo
responsável por gerenciar o ciclo de vida de todos os incidentes. O gerenciamento de
incidentes garante que a operação normal de um serviço seja restaurada tão rapidamente
quando possível e que o impacto no negócio seja minimizado.
Incidente grave: Conforme o próprio termo sugere, incidente grave é aquele que gera
um impacto significativo no negócio. Normalmente, está associado a falhas em serviços
considerados críticos para o funcionamento do negócio e cuja indisponibilidade gera
perdas financeiras para a organização. Para incidentes graves será preciso usar um
procedimento separado, com escalas de tempo mais curtas e maior urgência.
Ciclo de vida do incidente
O Desenho de serviço e a Melhoria contínua de serviço da ITIL descrevem o ciclo de vida
expandido do incidente, que pode ser usado para ajudar a compreender o impacto de
incidentes e planejar para que este impacto seja controlado ou reduzido.
2. Há várias métricas de gerenciamento associadas ao ciclo de vida do incidente:
• TMPR - Tempo Médio Para Reparo: o tempo médio decorrido entre a detecção e
reparação.
• TMRS - Tempo Médio Para Restaurar o Serviço: o tempo médio decorrido entre a
detecção e restauração.
• TMEF - Tempo Médio Entre Falhas: o tempo médio decorrido entre restauração e a
detecção de um novo incidente.
• TMEIS - Tempo Médio Entre Incidentes de Serviço: o tempo médio decorrido entre
incidentes.
Atividades do Processo
Podemos definir que as principais atividades do gerenciamento de incidentes, entendemos
que:
Identificação:
A identificação de um incidente inicia o processo, incidentes podem ser identificados com
rapidez por ferramentas de monitoração. Existem outras fontes de reporte de incidentes,
como por exemplo os usuários, pessoas da operação ou gerenciamento de redes, entre
outros.
Registro:
No registro, uma vez que detectado, o ciclo de vida do incidente começa com o registro
dos detalhes do incidente. As seguintes informações podem ser incluídas no registro,
como:
ID único, Categoria, Urgência, Impacto, Prioridade, Data e hora do registro, informações
do usuário, método de notificação, método de chamada de retorno, sintomas status do
incidente, IC correspondente, responsável pela resolução, problema/erro conhecido
correspondente, atividades envolvidas na resolução, data e hora da resolução, categoria
de encerramento e data e hora de encerramento.
Categorização:
Parte dos registros iniciais inclui a alocação de códigos adequados de categorização de
incidentes para que o tipo exato de incidente seja registrado. A categorização de
incidentes pode mudar ao longo do ciclo de vida de um incidente. O esquema de
3. categorização é único de cada organização de TI porque os detalhes deste esquema
dependem muito do tamanho e da complexidade da infraestrutura de TI.
Priorização
A prioridade convém ser baseada no Impacto (impacto do negócio) e Urgência (o quão
rápido precisa da resolução).
Alguns fatores contribuem para impacto, como o risco de vida ou ferimento, números de
usuários ou serviços impactados, perda financeira, efeito na reputação da empresa,
violação de regulamentos ou leis, entre outros.
Diagnostico Inicial
Normalmente, conduzido por um analista na central de serviços no primeiro contato com
o usuário, este diagnostico pode ser feito com o usuário ao telefone.
Esta fase, envolve levantar todos os sintomas do incidente e determinar o que deu errado
e como corrigir. Scripts de diagnósticos e informações de erros conhecidos ajudam no
diagnóstico correto.
Escalação
A escalação ocorre quando um incidente requerer uma ação de um funcionário sênior ou
de outros especialistas. Se a central de serviços não puder resolver, ela deverá escalar o
4. incidente. A escalação pode ser funcional (quando requer um nível mais alto de suporte),
hierárquica (quando requer o envolvimento ou visibilidade de níveis gerenciais mais
altos) ou ambas.
Investigação e diagnóstico
Um incidente reportado provavelmente exigirá algum grau de investigação e
diagnóstico. Cada um dos grupos de suporte envolvidos com o tratamento de
incidentes irá investigar e diagnosticar o que deu errado - e estas atividades
(inclusive detalhes de quaisquer ações tomadas para tentar resolver ou recriar o incidente)
devem ser documentadas no registro do incidente de modo a manter um registro histórico
completo de todas as atividades o tempo todo.
Resolução e recuperação
Quando uma resolução em potencial tiver sido identificada ela precisa ser aplicada e
testada. O gerenciamento de incidentes mantém a responsabilidade pela restauração
(reparo e recuperação) e quando a resolução tiver sido encontrada será preciso realizar
testes suficientes para assegurar que a ação de recuperação tenha sido completa e que a
operação dos serviços tenha sido restaurada ao estado normal, os registros de incidentes
precisam ser atualizados de acordo com todas as informações e detalhes relevantes,
mantendo um histórico completo.
No final, o grupo solucionador precisa passar o incidente de volta para a central de
serviços para a ação de encerramento.
Encerramento
A central de serviços precisa verificar que o incidente foi plenamente resolvido e que os
usuários estão satisfeitos e dispostos a concordar que o incidente possa ser encerrado. A
central de serviços pode verificar o seguinte nesta etapa:
- Categorização de encerramento: verificar e confirmar que a categorização inicial do
incidente estava correta ou onde a categorização acabou se revelando incorreta, e atualizar
o registro para que uma categorização correta de encerramento seja registrada para o
incidente - buscando aconselhamento ou orientação dos grupos solucionadores, conforme
necessário.
5. - Satisfação dos usuários: conduzir uma pesquisa de satisfação dos usuários por meio de
chamada de retorno ou e-mail para uma porcentagem acordada de incidentes, isso sendo
uma métrica-chave importante para o provedor de serviços coletar informações sobre os
incidentes e o seu desempenho para recuperação do serviço a partir da perspectiva do
usuário.
- Documentação do incidente: é parte importante do encerramento e inclui observar
quaisquer detalhes pendentes e assegurar que o registro do incidente esteja plenamente
documentado, de modo que um registro histórico completo, em um nível suficiente de
detalhes, seja concluído.
- Problema em andamento ou recorrente: é verificado juntamente com os grupos
solucionadores se o incidente foi resolvido sem a identificação da causa raiz. Nesse caso,
provável que o incidente venha ocorrer, e com isso requerer outras ações preventivas para
evitar. Caso não houver nenhum registro de problema relacionado ao incidente, é
necessário abrir outro registro juntamente com o processo de gerenciamento de problemas
para que uma ação preventiva seja iniciada.
- Enceramento formal: encerrar formalmente o registro de incidente.