Postmortem & Zabbix
“THE COST OF FAILURE IS EDUCATION.” DEVIN CARRAWAY
 Luiz Sales
 Owner at ServiceMonit
 Infrastructure Analyst
 Intelligence Of Things
 Zabbix Specialist and Professional
Eu
O que é? É de comer?
 O conceito postmortem é bem conhecido na indústria de tecnologia. Um
postmortem é um registro escrito de um incidente, seu impacto, as ações
tomadas para mitigá-lo ou resolvê-lo, a causa raiz e as ações de
acompanhamento para evitar que o incidente se repita.
Objetivos
 Os principais objetivos de escrever um postmortem são garantir que o incidente
seja documentado, que todas as causas básicas sejam bem compreendidas e,
especialmente, que ações preventivas efetivas sejam postas em prática para
reduzir a probabilidade e / ou o impacto da recorrência. Escrever um post-mortem
não é punição - é uma oportunidade de aprendizado para toda a empresa.
Gatilhos
 Degradação de acessso do usuario.
 Perda de dados de qualquer tipo
 Intervençao do Analista Senior, realizando qualquer atividade
 Resolução fora do tempo estabelecido
 A Monitoração fallhou (ou foi descoberto que não tinha monitoração ou não
estava bem definida)
ZABBIX
TOP 100 TRIGGERS
Como compartilhar o Postmortem
 Wiki
 Knowledge base
EXAMPLE POSTMORTEM
 Date:
 Authors: Luiz Sales
 Status: Complete.
 Summary: history syncer muito alto causando lentidão no ambiente e performance deteriorada
 Impact:Lentidão na interface web e monitoração de itens. Acesso a solução deteriorada, Clientes
reclmando que nao acesssam o portal.
 Root Causes: Lentidão em cascata quando ocorria o problema, com alto volume de incidentes
represados, ocasionado alta fila e lentidão nos seviços
 Trigger: History syncer is very high > 95%
 Resolution: Aumento de pollers padrões no Zabbix, ajustes de configuração no banco de dados. ,
melhorias no sistemas opercaional, prioridade de processos.
Referencias
 https://landing.google.com/sre/sre-book/chapters/postmortem/
 Luiz Sales
 +55 (11) 9 8832 5874
 luiz.sales@servicemonit.com.br
 https://www.linkedin.com/in/lsa1es/
 https://github.com/lsa1es
Contatos

Postmortem & Zabbix

  • 1.
    Postmortem & Zabbix “THECOST OF FAILURE IS EDUCATION.” DEVIN CARRAWAY
  • 2.
     Luiz Sales Owner at ServiceMonit  Infrastructure Analyst  Intelligence Of Things  Zabbix Specialist and Professional Eu
  • 3.
    O que é?É de comer?  O conceito postmortem é bem conhecido na indústria de tecnologia. Um postmortem é um registro escrito de um incidente, seu impacto, as ações tomadas para mitigá-lo ou resolvê-lo, a causa raiz e as ações de acompanhamento para evitar que o incidente se repita.
  • 4.
    Objetivos  Os principaisobjetivos de escrever um postmortem são garantir que o incidente seja documentado, que todas as causas básicas sejam bem compreendidas e, especialmente, que ações preventivas efetivas sejam postas em prática para reduzir a probabilidade e / ou o impacto da recorrência. Escrever um post-mortem não é punição - é uma oportunidade de aprendizado para toda a empresa.
  • 5.
    Gatilhos  Degradação deacessso do usuario.  Perda de dados de qualquer tipo  Intervençao do Analista Senior, realizando qualquer atividade  Resolução fora do tempo estabelecido  A Monitoração fallhou (ou foi descoberto que não tinha monitoração ou não estava bem definida)
  • 6.
  • 7.
  • 8.
    Como compartilhar oPostmortem  Wiki  Knowledge base
  • 9.
    EXAMPLE POSTMORTEM  Date: Authors: Luiz Sales  Status: Complete.  Summary: history syncer muito alto causando lentidão no ambiente e performance deteriorada  Impact:Lentidão na interface web e monitoração de itens. Acesso a solução deteriorada, Clientes reclmando que nao acesssam o portal.  Root Causes: Lentidão em cascata quando ocorria o problema, com alto volume de incidentes represados, ocasionado alta fila e lentidão nos seviços  Trigger: History syncer is very high > 95%  Resolution: Aumento de pollers padrões no Zabbix, ajustes de configuração no banco de dados. , melhorias no sistemas opercaional, prioridade de processos.
  • 10.
  • 11.
     Luiz Sales +55 (11) 9 8832 5874  luiz.sales@servicemonit.com.br  https://www.linkedin.com/in/lsa1es/  https://github.com/lsa1es Contatos