Site Reliability
Engineering
passo-a-passo
Wilson Júnior
Um pouco da história
Reliability
Confiabilidade: a qualidade de ser confiável ou de executar
consistentemente bem.
Site Reliability
Engineering
Site Reliability Engineering
Princípios
Simplicidade!
Simplicidade!
Simply philosophy
● Simple is better than complex. Zend of Python
● KISS: Keep It Simple, Stupid
● Less is exponentially more - Rob Pike (um dos criadores do GOLang)
● O preço da confiabilidade é a busca da máxima simplicidade - Tony Hoare (Vencedor do
Turing Award de 1980)
● simplicidade é o último grau de sofisticação - Leonardo da Vinci
Automatize!
"If a human operator needs to
touch your system during normal
operations, you have a bug. The
definition of normal changes as
your systems grow."
Carla Geisser, Google SRE
Elimine a labuta (toil)
● Manual
● Repetitiva
● Automatizável
● O (N)
● Sem valor duradouro
Monitoração
SRE: Golden signals
1. Tráfego
2. Erros
3. Latência
4. Saturação
SLIs
SLIs
SLO
Delivery:
Disponibilidade: 99.9%
97% < 100ms 95% < 50ms
Publicação
Disponibilidade: 99%
95% < 5s 97% < 10s
SLAs
Error budget
Error budgets
Baseado na disponibilidade acordada entre SREs e a gestão:
100% - disponibilidade_alvo (SLO)
Sem orçamento == Sem push de novas features (freeze)
São definidos de acordo com os ciclos da empresa (ex.: quarter)
Error budget
42.272.129 requests dias
99.9% de SLO
42272 de falhas aceitáveis por dia
Error budget
E se eu queimar rapidamente este orçamento de
erro em poucos minutos ?
Alertas sobre SLOs
Page
Ticket
Métricas, Logs e Traces
Métricas, Logs e Traces
Métricas, Logs e Traces
Métricas, Logs e Traces
Métricas, Logs e Traces
Métricas, Logs e Traces
Métricas, Logs e Traces
Métricas, Logs e Traces
Os SLIs devem estar
próximos do usuário
Alert system
Long term
SLO Generator
SLO Generator
github.com/globocom/slo-generator
Cultura do postmortem
Post Mortem
Visíveis para toda a empresa
Sem culpados
"The cost of failure is education"
Recap
● Baseado em frustração do usuário
● SLIs/SLOs/SLAs para medir como estamos entregando o serviço
● Usar os SLOs para alertas inteligentes.
● Simplicidade <3
● Eliminar a labuta
● Aprender com as falhas com Postmortem culture
● Melhoria contínua dos sistemas
Estamos contratando:
talentos.globo.com
SRE passo a passo

SRE passo a passo