O documento discute postmortens e o uso do Zabbix para monitoramento. Ele explica que um postmortem documenta incidentes para entendimento das causas raízes e prevenção de recorrências, e lista gatilhos para escrever um. Ele fornece um exemplo de postmortem sobre lentidão causada por alto uso do history syncer no Zabbix e como foi resolvido através de ajustes de configuração.
2. Luiz Sales
Owner at ServiceMonit
Infrastructure Analyst
Intelligence Of Things
Zabbix Specialist and Professional
Eu
3. O que é? É de comer?
O conceito postmortem é bem conhecido na indústria de tecnologia. Um
postmortem é um registro escrito de um incidente, seu impacto, as ações
tomadas para mitigá-lo ou resolvê-lo, a causa raiz e as ações de
acompanhamento para evitar que o incidente se repita.
4. Objetivos
Os principais objetivos de escrever um postmortem são garantir que o incidente
seja documentado, que todas as causas básicas sejam bem compreendidas e,
especialmente, que ações preventivas efetivas sejam postas em prática para
reduzir a probabilidade e / ou o impacto da recorrência. Escrever um post-mortem
não é punição - é uma oportunidade de aprendizado para toda a empresa.
5. Gatilhos
Degradação de acessso do usuario.
Perda de dados de qualquer tipo
Intervençao do Analista Senior, realizando qualquer atividade
Resolução fora do tempo estabelecido
A Monitoração fallhou (ou foi descoberto que não tinha monitoração ou não
estava bem definida)
9. EXAMPLE POSTMORTEM
Date:
Authors: Luiz Sales
Status: Complete.
Summary: history syncer muito alto causando lentidão no ambiente e performance deteriorada
Impact:Lentidão na interface web e monitoração de itens. Acesso a solução deteriorada, Clientes
reclmando que nao acesssam o portal.
Root Causes: Lentidão em cascata quando ocorria o problema, com alto volume de incidentes
represados, ocasionado alta fila e lentidão nos seviços
Trigger: History syncer is very high > 95%
Resolution: Aumento de pollers padrões no Zabbix, ajustes de configuração no banco de dados. ,
melhorias no sistemas opercaional, prioridade de processos.