Site Reliability Engineering: descubra uma nova era para Dev e Infra

Site Reliability Engineering
Descubra uma nova era para a área de Dev e Infra.

$whoami
● Pery Lemke aka Peronium
● SRE na Ahgora Sistemas
● Sudocaster :)
● Membro da organização do
meetup DevOps Floripa
● Entusiasta DevOps
● Garimpeiro de bandas
obscuras de Stoner e Doom.

Em linhas gerais o que é SRE?
SRE acrônimo de Site Reliability Engineer é o que acontece
quando você pede para um engenheiro de software para
projetar uma equipe de operações.
Ou seja, SRE é a implementação da cultura DevOps com
aditivos.

Roadmap
● Conceitos básicos de SRE;
● Debate.

Em 2003, Ben Treynor recebeu o desafio de gerenciar a
“Equipe de Produção” que era composta por 7
engenheiros.
Porém ele era um Engenheiro de Software.
Desafio proposto

DevOps e SRE
● DevOps é uma generalização de vários princípios
fundamentais para uma ampla e vasta gama de
organizações, estruturas de gestão e pessoal.
● Já o SRE é uma implementação do DevOps com
algumas extensões peculiares.

O que o SRE faz no dia a dia?
Um time SRE é responsável pela disponibilidade, latência,
desempenho, eficiência, gerenciamento de mudança,
monitoramento, resposta a emergência e plano de
capacidade (capacity planning) dos serviços que eles são
responsáveis

● Arrumar periféricos em geral;
● Verificar o porquê do Word não estar funcionando;
● Saber o porque do travamento do Windows;
● Desinstalar o Baidu.
O que o SRE não faz no dia a dia?

Times de SRE
Geralmente são compostos por:
● 100% do time são Desenvolvedores;
● 50% do time com skills de Redes e SO;
Com essa mescla de skills Dev e Ops o time terá
competência e condições para rapidamente construir
sistemas auxiliares para substituir trabalhos manuais.

Foco
● 50% do tempo resolvendo Tickets e atuando em
atividades operacionais
● 50% restante desenvolvendo ferramentas para
automatizar as atividades

Os 7 Principios fundamentais
● Embracing Risk;
● Service Level Objectives (SLO);
● Eliminating Toil;
● Monitoring Distributed Systems;
● Automation;
● Release Engineering;
● Simplicity.

Embracing Risk
A principal função do SRE é gerenciar a confiabilidade do
serviço através da gestão de riscos.
Risco é uma constante na operação de um serviço e o
dia-a-dia do time de SRE é manter a confiabilidade do
serviço dentro de um range aceitável, equilibrando as
demandas de alta inovação e gestão de riscos
operacionais.

Service Level Objectives (SLO)
Muitos conhecem o termo SLA (Service Level Agreement),
porém o Google entende isso como SLO (Service Level
Objectives), onde são definidos uma série métricas para
medir o serviço prestado.
Porém, os indicadores devem ser exutos, muitos
indicadores tornam sua operação complexa para
monitorar.

Eliminating Toil
Não significa propriamente, trabalho que não gosto de fazer e nem trabalho
sujo. E sim uma série de esforços:
● Manual;
● Repetitivo;
● Automatizável;
● Tático;
● Sem valor a longo prazo;
● Com o crescimento da operação.

Monitoring Distributed Systems
No Google existem os seguintes tipos de monitoramento:
● Monitoring;
● White-box monitoring;
● Black-box monitoring;
● Dashboard;
● Alert;
● Root cause;
● Node and machine;
● Push.

Automation
O valor da automação tem como base:
● Consistência;
● Plataforma;
● Reparos rápidos;
● Ações rápidas;
● Time Saving.

Release Engineering
Os 4 princípios básicos de Release Engineering são:
● Self-Service Model;
● Alta velocidade;
● Builds herméticos;
● Execução de Políticas e Procedimentos.

Simplicity
O preço de confiabilidade é a busca da maior simplicidade.
No Google, os Engenheiros buscam construir sistemas
estáveis com um desenvolvimento simples para ter uma
manutenção fácil no futuro.

Debate
O que vocês estão fazendo para melhorar o seu dia a dia
de trabalho?
Está gerando valor seja para você e para sua organização?

Referências Bibliográficas
● https://landing.google.com/sre/book/
● https://www.fernandoike.com/2017/03/23/site-reliability-engineer---sre/
● https://churrops.io/2017/10/27/sre-abracando-o-risco/
● https://churrops.io/2017/10/09/o-que-e-sre-site-reliability-engineering/

Agradecimentos
Agradecimento especial ao Fernando Ike pela mentoria
para esta talk.
Agradecer a Ahgora Sistemas pelo apoio.
E as vocês por participarem e ouvirem este pobre speaker.
:)

Muito obrigado!
Contatos:
github.com/perylemke
twitter.com/perylemke
pery.lemke@gmail.com
www.sudocast.com.br
www.facebook.com/1sudocast

Site Reliability Engineering: descubra uma nova era para Dev e Infra

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a Site Reliability Engineering: descubra uma nova era para Dev e Infra

Semelhante a Site Reliability Engineering: descubra uma nova era para Dev e Infra (20)

Site Reliability Engineering: descubra uma nova era para Dev e Infra