Este documento fornece uma introdução ao Site Reliability Engineering (SRE). Em três frases: Introduz o conceito de SRE, que envolve engenheiros de software projetando equipes de operações para garantir a disponibilidade e desempenho dos serviços; descreve os sete princípios fundamentais do SRE, incluindo gerenciamento de riscos, objetivos de nível de serviço e automação; e discute como times SRE passam metade do tempo resolvendo tarefas e a outra metade desenvolvendo ferramentas para automatizar processos.
2. $whoami
● Pery Lemke aka Peronium
● SRE na Ahgora Sistemas
● Sudocaster :)
● Membro da organização do
meetup DevOps Floripa
● Entusiasta DevOps
● Garimpeiro de bandas
obscuras de Stoner e Doom.
3. Em linhas gerais o que é SRE?
SRE acrônimo de Site Reliability Engineer é o que acontece
quando você pede para um engenheiro de software para
projetar uma equipe de operações.
Ou seja, SRE é a implementação da cultura DevOps com
aditivos.
6. Em 2003, Ben Treynor recebeu o desafio de gerenciar a
“Equipe de Produção” que era composta por 7
engenheiros.
Porém ele era um Engenheiro de Software.
Desafio proposto
7. DevOps e SRE
● DevOps é uma generalização de vários princípios
fundamentais para uma ampla e vasta gama de
organizações, estruturas de gestão e pessoal.
● Já o SRE é uma implementação do DevOps com
algumas extensões peculiares.
8. O que o SRE faz no dia a dia?
Um time SRE é responsável pela disponibilidade, latência,
desempenho, eficiência, gerenciamento de mudança,
monitoramento, resposta a emergência e plano de
capacidade (capacity planning) dos serviços que eles são
responsáveis
9. ● Arrumar periféricos em geral;
● Verificar o porquê do Word não estar funcionando;
● Saber o porque do travamento do Windows;
● Desinstalar o Baidu.
O que o SRE não faz no dia a dia?
11. Times de SRE
Geralmente são compostos por:
● 100% do time são Desenvolvedores;
● 50% do time com skills de Redes e SO;
Com essa mescla de skills Dev e Ops o time terá
competência e condições para rapidamente construir
sistemas auxiliares para substituir trabalhos manuais.
12. Foco
● 50% do tempo resolvendo Tickets e atuando em
atividades operacionais
● 50% restante desenvolvendo ferramentas para
automatizar as atividades
14. Embracing Risk
A principal função do SRE é gerenciar a confiabilidade do
serviço através da gestão de riscos.
Risco é uma constante na operação de um serviço e o
dia-a-dia do time de SRE é manter a confiabilidade do
serviço dentro de um range aceitável, equilibrando as
demandas de alta inovação e gestão de riscos
operacionais.
15. Service Level Objectives (SLO)
Muitos conhecem o termo SLA (Service Level Agreement),
porém o Google entende isso como SLO (Service Level
Objectives), onde são definidos uma série métricas para
medir o serviço prestado.
Porém, os indicadores devem ser exutos, muitos
indicadores tornam sua operação complexa para
monitorar.
16. Eliminating Toil
Não significa propriamente, trabalho que não gosto de fazer e nem trabalho
sujo. E sim uma série de esforços:
● Manual;
● Repetitivo;
● Automatizável;
● Tático;
● Sem valor a longo prazo;
● Com o crescimento da operação.
17. Monitoring Distributed Systems
No Google existem os seguintes tipos de monitoramento:
● Monitoring;
● White-box monitoring;
● Black-box monitoring;
● Dashboard;
● Alert;
● Root cause;
● Node and machine;
● Push.
18. Automation
O valor da automação tem como base:
● Consistência;
● Plataforma;
● Reparos rápidos;
● Ações rápidas;
● Time Saving.
19. Release Engineering
Os 4 princípios básicos de Release Engineering são:
● Self-Service Model;
● Alta velocidade;
● Builds herméticos;
● Execução de Políticas e Procedimentos.
20. Simplicity
O preço de confiabilidade é a busca da maior simplicidade.
No Google, os Engenheiros buscam construir sistemas
estáveis com um desenvolvimento simples para ter uma
manutenção fácil no futuro.
21. Debate
O que vocês estão fazendo para melhorar o seu dia a dia
de trabalho?
Está gerando valor seja para você e para sua organização?
23. Agradecimentos
Agradecimento especial ao Fernando Ike pela mentoria
para esta talk.
Agradecer a Ahgora Sistemas pelo apoio.
E as vocês por participarem e ouvirem este pobre speaker.
:)