SlideShare uma empresa Scribd logo
1 de 24
Site Reliability Engineering
Descubra uma nova era para a área de Dev e Infra.
$whoami
● Pery Lemke aka Peronium
● SRE na Ahgora Sistemas
● Sudocaster :)
● Membro da organização do
meetup DevOps Floripa
● Entusiasta DevOps
● Garimpeiro de bandas
obscuras de Stoner e Doom.
Em linhas gerais o que é SRE?
SRE acrônimo de Site Reliability Engineer é o que acontece
quando você pede para um engenheiro de software para
projetar uma equipe de operações.
Ou seja, SRE é a implementação da cultura DevOps com
aditivos.
Roadmap
● Conceitos básicos de SRE;
● Debate.
Benjamin Treynor Sloss
Em 2003, Ben Treynor recebeu o desafio de gerenciar a
“Equipe de Produção” que era composta por 7
engenheiros.
Porém ele era um Engenheiro de Software.
Desafio proposto
DevOps e SRE
● DevOps é uma generalização de vários princípios
fundamentais para uma ampla e vasta gama de
organizações, estruturas de gestão e pessoal.
● Já o SRE é uma implementação do DevOps com
algumas extensões peculiares.
O que o SRE faz no dia a dia?
Um time SRE é responsável pela disponibilidade, latência,
desempenho, eficiência, gerenciamento de mudança,
monitoramento, resposta a emergência e plano de
capacidade (capacity planning) dos serviços que eles são
responsáveis
● Arrumar periféricos em geral;
● Verificar o porquê do Word não estar funcionando;
● Saber o porque do travamento do Windows;
● Desinstalar o Baidu.
O que o SRE não faz no dia a dia?
Desculpa Vó...
Times de SRE
Geralmente são compostos por:
● 100% do time são Desenvolvedores;
● 50% do time com skills de Redes e SO;
Com essa mescla de skills Dev e Ops o time terá
competência e condições para rapidamente construir
sistemas auxiliares para substituir trabalhos manuais.
Foco
● 50% do tempo resolvendo Tickets e atuando em
atividades operacionais
● 50% restante desenvolvendo ferramentas para
automatizar as atividades
Os 7 Principios fundamentais
● Embracing Risk;
● Service Level Objectives (SLO);
● Eliminating Toil;
● Monitoring Distributed Systems;
● Automation;
● Release Engineering;
● Simplicity.
Embracing Risk
A principal função do SRE é gerenciar a confiabilidade do
serviço através da gestão de riscos.
Risco é uma constante na operação de um serviço e o
dia-a-dia do time de SRE é manter a confiabilidade do
serviço dentro de um range aceitável, equilibrando as
demandas de alta inovação e gestão de riscos
operacionais.
Service Level Objectives (SLO)
Muitos conhecem o termo SLA (Service Level Agreement),
porém o Google entende isso como SLO (Service Level
Objectives), onde são definidos uma série métricas para
medir o serviço prestado.
Porém, os indicadores devem ser exutos, muitos
indicadores tornam sua operação complexa para
monitorar.
Eliminating Toil
Não significa propriamente, trabalho que não gosto de fazer e nem trabalho
sujo. E sim uma série de esforços:
● Manual;
● Repetitivo;
● Automatizável;
● Tático;
● Sem valor a longo prazo;
● Com o crescimento da operação.
Monitoring Distributed Systems
No Google existem os seguintes tipos de monitoramento:
● Monitoring;
● White-box monitoring;
● Black-box monitoring;
● Dashboard;
● Alert;
● Root cause;
● Node and machine;
● Push.
Automation
O valor da automação tem como base:
● Consistência;
● Plataforma;
● Reparos rápidos;
● Ações rápidas;
● Time Saving.
Release Engineering
Os 4 princípios básicos de Release Engineering são:
● Self-Service Model;
● Alta velocidade;
● Builds herméticos;
● Execução de Políticas e Procedimentos.
Simplicity
O preço de confiabilidade é a busca da maior simplicidade.
No Google, os Engenheiros buscam construir sistemas
estáveis com um desenvolvimento simples para ter uma
manutenção fácil no futuro.
Debate
O que vocês estão fazendo para melhorar o seu dia a dia
de trabalho?
Está gerando valor seja para você e para sua organização?
Referências Bibliográficas
● https://landing.google.com/sre/book/
● https://www.fernandoike.com/2017/03/23/site-reliability-engineer---sre/
● https://churrops.io/2017/10/27/sre-abracando-o-risco/
● https://churrops.io/2017/10/09/o-que-e-sre-site-reliability-engineering/
Agradecimentos
Agradecimento especial ao Fernando Ike pela mentoria
para esta talk.
Agradecer a Ahgora Sistemas pelo apoio.
E as vocês por participarem e ouvirem este pobre speaker.
:)
Muito obrigado!
Contatos:
github.com/perylemke
twitter.com/perylemke
pery.lemke@gmail.com
www.sudocast.com.br
www.facebook.com/1sudocast

Mais conteúdo relacionado

Mais procurados

SRE - Engenharia de Confiabilidade de Sites
SRE - Engenharia de Confiabilidade de SitesSRE - Engenharia de Confiabilidade de Sites
SRE - Engenharia de Confiabilidade de SitesFabricio Goncalves
 
How Small Team Get Ready for SRE (public version)
How Small Team Get Ready for SRE (public version)How Small Team Get Ready for SRE (public version)
How Small Team Get Ready for SRE (public version)Setyo Legowo
 
Site reliability engineering
Site reliability engineeringSite reliability engineering
Site reliability engineeringJason Loeffler
 
Code Quality Lightning Talk
Code Quality Lightning TalkCode Quality Lightning Talk
Code Quality Lightning TalkJonathan Gregory
 
SRE - Engenharia de confiabilidade de sites 3
SRE - Engenharia de confiabilidade de sites 3SRE - Engenharia de confiabilidade de sites 3
SRE - Engenharia de confiabilidade de sites 3Fabricio Goncalves
 
SRE 101 (Site Reliability Engineering)
SRE 101 (Site Reliability Engineering)SRE 101 (Site Reliability Engineering)
SRE 101 (Site Reliability Engineering)Hussain Mansoor
 
SRE (service reliability engineer) on big DevOps platform running on the clou...
SRE (service reliability engineer) on big DevOps platform running on the clou...SRE (service reliability engineer) on big DevOps platform running on the clou...
SRE (service reliability engineer) on big DevOps platform running on the clou...DevClub_lv
 
A Crash Course in Building Site Reliability
A Crash Course in Building Site ReliabilityA Crash Course in Building Site Reliability
A Crash Course in Building Site ReliabilityAcquia
 
Continuous Application Security at Scale with IAST and RASP -- Transforming D...
Continuous Application Security at Scale with IAST and RASP -- Transforming D...Continuous Application Security at Scale with IAST and RASP -- Transforming D...
Continuous Application Security at Scale with IAST and RASP -- Transforming D...Jeff Williams
 
Getting started with Site Reliability Engineering (SRE)
Getting started with Site Reliability Engineering (SRE)Getting started with Site Reliability Engineering (SRE)
Getting started with Site Reliability Engineering (SRE)Abeer R
 
SRE Demystified - 01 - SLO SLI and SLA
SRE Demystified - 01 - SLO SLI and SLASRE Demystified - 01 - SLO SLI and SLA
SRE Demystified - 01 - SLO SLI and SLADr Ganesh Iyer
 
Breaking Observability Chaos: Best Practices to Monitor AWS Cloud Native Apps...
Breaking Observability Chaos: Best Practices to Monitor AWS Cloud Native Apps...Breaking Observability Chaos: Best Practices to Monitor AWS Cloud Native Apps...
Breaking Observability Chaos: Best Practices to Monitor AWS Cloud Native Apps...Amazon Web Services
 
Inverting The Testing Pyramid
Inverting The Testing PyramidInverting The Testing Pyramid
Inverting The Testing PyramidNaresh Jain
 
SRE-iously! Reliability!
SRE-iously! Reliability!SRE-iously! Reliability!
SRE-iously! Reliability!New Relic
 
Shift Left Testing: Going Beyond Agile
Shift Left Testing: Going Beyond AgileShift Left Testing: Going Beyond Agile
Shift Left Testing: Going Beyond AgileTechWell
 
DevSecOps : an Introduction
DevSecOps : an IntroductionDevSecOps : an Introduction
DevSecOps : an IntroductionPrashanth B. P.
 
How to SRE when you have no SRE
How to SRE when you have no SREHow to SRE when you have no SRE
How to SRE when you have no SRESquadcast Inc
 

Mais procurados (20)

SRE - Engenharia de Confiabilidade de Sites
SRE - Engenharia de Confiabilidade de SitesSRE - Engenharia de Confiabilidade de Sites
SRE - Engenharia de Confiabilidade de Sites
 
How Small Team Get Ready for SRE (public version)
How Small Team Get Ready for SRE (public version)How Small Team Get Ready for SRE (public version)
How Small Team Get Ready for SRE (public version)
 
Site reliability engineering
Site reliability engineeringSite reliability engineering
Site reliability engineering
 
SRE vs DevOps
SRE vs DevOpsSRE vs DevOps
SRE vs DevOps
 
Code Quality Lightning Talk
Code Quality Lightning TalkCode Quality Lightning Talk
Code Quality Lightning Talk
 
SRE - Engenharia de confiabilidade de sites 3
SRE - Engenharia de confiabilidade de sites 3SRE - Engenharia de confiabilidade de sites 3
SRE - Engenharia de confiabilidade de sites 3
 
SRE 101
SRE 101SRE 101
SRE 101
 
SRE 101 (Site Reliability Engineering)
SRE 101 (Site Reliability Engineering)SRE 101 (Site Reliability Engineering)
SRE 101 (Site Reliability Engineering)
 
SRE (service reliability engineer) on big DevOps platform running on the clou...
SRE (service reliability engineer) on big DevOps platform running on the clou...SRE (service reliability engineer) on big DevOps platform running on the clou...
SRE (service reliability engineer) on big DevOps platform running on the clou...
 
A Crash Course in Building Site Reliability
A Crash Course in Building Site ReliabilityA Crash Course in Building Site Reliability
A Crash Course in Building Site Reliability
 
Continuous Application Security at Scale with IAST and RASP -- Transforming D...
Continuous Application Security at Scale with IAST and RASP -- Transforming D...Continuous Application Security at Scale with IAST and RASP -- Transforming D...
Continuous Application Security at Scale with IAST and RASP -- Transforming D...
 
Getting started with Site Reliability Engineering (SRE)
Getting started with Site Reliability Engineering (SRE)Getting started with Site Reliability Engineering (SRE)
Getting started with Site Reliability Engineering (SRE)
 
SRE Demystified - 01 - SLO SLI and SLA
SRE Demystified - 01 - SLO SLI and SLASRE Demystified - 01 - SLO SLI and SLA
SRE Demystified - 01 - SLO SLI and SLA
 
Breaking Observability Chaos: Best Practices to Monitor AWS Cloud Native Apps...
Breaking Observability Chaos: Best Practices to Monitor AWS Cloud Native Apps...Breaking Observability Chaos: Best Practices to Monitor AWS Cloud Native Apps...
Breaking Observability Chaos: Best Practices to Monitor AWS Cloud Native Apps...
 
Inverting The Testing Pyramid
Inverting The Testing PyramidInverting The Testing Pyramid
Inverting The Testing Pyramid
 
SRE-iously! Reliability!
SRE-iously! Reliability!SRE-iously! Reliability!
SRE-iously! Reliability!
 
DevOps-CoE
DevOps-CoEDevOps-CoE
DevOps-CoE
 
Shift Left Testing: Going Beyond Agile
Shift Left Testing: Going Beyond AgileShift Left Testing: Going Beyond Agile
Shift Left Testing: Going Beyond Agile
 
DevSecOps : an Introduction
DevSecOps : an IntroductionDevSecOps : an Introduction
DevSecOps : an Introduction
 
How to SRE when you have no SRE
How to SRE when you have no SREHow to SRE when you have no SRE
How to SRE when you have no SRE
 

Semelhante a Site Reliability Engineering: descubra uma nova era para Dev e Infra

Muita gestão e pouca engenharia, por onde anda o XP?
Muita gestão e pouca engenharia, por onde anda o XP?Muita gestão e pouca engenharia, por onde anda o XP?
Muita gestão e pouca engenharia, por onde anda o XP?Cristiano Schwening
 
Fatores que influenciam na longevidade de um Software
Fatores que influenciam na longevidade de um SoftwareFatores que influenciam na longevidade de um Software
Fatores que influenciam na longevidade de um SoftwarePablo Dall'Oglio
 
Utilizando metologias ágeis com VSTS: Scrum e XP, YES WE CAN! (ALM204)
Utilizando metologias ágeis com VSTS: Scrum e XP, YES WE CAN! (ALM204)Utilizando metologias ágeis com VSTS: Scrum e XP, YES WE CAN! (ALM204)
Utilizando metologias ágeis com VSTS: Scrum e XP, YES WE CAN! (ALM204)André Dias
 
Palestra DevOps para Teste de Software
Palestra DevOps para Teste de SoftwarePalestra DevOps para Teste de Software
Palestra DevOps para Teste de SoftwareJúlio de Lima
 
E se ao invés de Dev e Ops for DevOps? Uma introdução a cultura DevOps
E se ao invés de Dev e Ops for DevOps? Uma introdução a cultura DevOpsE se ao invés de Dev e Ops for DevOps? Uma introdução a cultura DevOps
E se ao invés de Dev e Ops for DevOps? Uma introdução a cultura DevOpsEdson Celio
 
Métodos Ágeis para Desenvolvimento de Software Livre
Métodos Ágeis para Desenvolvimento de Software LivreMétodos Ágeis para Desenvolvimento de Software Livre
Métodos Ágeis para Desenvolvimento de Software LivreDionatan default
 
Design for change: Fatores que influenciam na longevidade de um Software PHP
Design for change: Fatores que influenciam na longevidade de um Software PHPDesign for change: Fatores que influenciam na longevidade de um Software PHP
Design for change: Fatores que influenciam na longevidade de um Software PHPPablo Dall'Oglio
 
DEV-OPS para teste de software
DEV-OPS para teste de softwareDEV-OPS para teste de software
DEV-OPS para teste de softwareQualister
 
Senac QSS - 1) Intro
Senac QSS - 1) IntroSenac QSS - 1) Intro
Senac QSS - 1) Introlcbj
 
Curso "Scrum na Real" - Parte 6
Curso "Scrum na Real" - Parte 6Curso "Scrum na Real" - Parte 6
Curso "Scrum na Real" - Parte 6leobower
 
Sprint Zero com mais Valor (TDC-2015)
Sprint Zero com mais Valor (TDC-2015)Sprint Zero com mais Valor (TDC-2015)
Sprint Zero com mais Valor (TDC-2015)Alex Magalhaes
 
Sobre TDD - Tech Friday da Everis Uberlândia
Sobre TDD - Tech Friday da Everis UberlândiaSobre TDD - Tech Friday da Everis Uberlândia
Sobre TDD - Tech Friday da Everis UberlândiaRogerio Fontes
 

Semelhante a Site Reliability Engineering: descubra uma nova era para Dev e Infra (20)

Muita gestão e pouca engenharia, por onde anda o XP?
Muita gestão e pouca engenharia, por onde anda o XP?Muita gestão e pouca engenharia, por onde anda o XP?
Muita gestão e pouca engenharia, por onde anda o XP?
 
Fatores que influenciam na longevidade de um Software
Fatores que influenciam na longevidade de um SoftwareFatores que influenciam na longevidade de um Software
Fatores que influenciam na longevidade de um Software
 
Apresentacao dev ops
Apresentacao dev opsApresentacao dev ops
Apresentacao dev ops
 
Utilizando metologias ágeis com VSTS: Scrum e XP, YES WE CAN! (ALM204)
Utilizando metologias ágeis com VSTS: Scrum e XP, YES WE CAN! (ALM204)Utilizando metologias ágeis com VSTS: Scrum e XP, YES WE CAN! (ALM204)
Utilizando metologias ágeis com VSTS: Scrum e XP, YES WE CAN! (ALM204)
 
Métodos Ágeis - Aula02
Métodos Ágeis - Aula02Métodos Ágeis - Aula02
Métodos Ágeis - Aula02
 
Palestra DevOps para Teste de Software
Palestra DevOps para Teste de SoftwarePalestra DevOps para Teste de Software
Palestra DevOps para Teste de Software
 
eXtreme Programming (XP)
eXtreme Programming (XP)eXtreme Programming (XP)
eXtreme Programming (XP)
 
São Paulo MuleSoft Meetups - DevOps
São Paulo MuleSoft Meetups - DevOpsSão Paulo MuleSoft Meetups - DevOps
São Paulo MuleSoft Meetups - DevOps
 
DevOps
DevOpsDevOps
DevOps
 
E se ao invés de Dev e Ops for DevOps? Uma introdução a cultura DevOps
E se ao invés de Dev e Ops for DevOps? Uma introdução a cultura DevOpsE se ao invés de Dev e Ops for DevOps? Uma introdução a cultura DevOps
E se ao invés de Dev e Ops for DevOps? Uma introdução a cultura DevOps
 
Métodos Ágeis para Desenvolvimento de Software Livre
Métodos Ágeis para Desenvolvimento de Software LivreMétodos Ágeis para Desenvolvimento de Software Livre
Métodos Ágeis para Desenvolvimento de Software Livre
 
Aula 4- Engenharia de Software
Aula 4- Engenharia de SoftwareAula 4- Engenharia de Software
Aula 4- Engenharia de Software
 
Design for change: Fatores que influenciam na longevidade de um Software PHP
Design for change: Fatores que influenciam na longevidade de um Software PHPDesign for change: Fatores que influenciam na longevidade de um Software PHP
Design for change: Fatores que influenciam na longevidade de um Software PHP
 
DEV-OPS para teste de software
DEV-OPS para teste de softwareDEV-OPS para teste de software
DEV-OPS para teste de software
 
DevOps
DevOpsDevOps
DevOps
 
#Moving br workshop
#Moving br workshop#Moving br workshop
#Moving br workshop
 
Senac QSS - 1) Intro
Senac QSS - 1) IntroSenac QSS - 1) Intro
Senac QSS - 1) Intro
 
Curso "Scrum na Real" - Parte 6
Curso "Scrum na Real" - Parte 6Curso "Scrum na Real" - Parte 6
Curso "Scrum na Real" - Parte 6
 
Sprint Zero com mais Valor (TDC-2015)
Sprint Zero com mais Valor (TDC-2015)Sprint Zero com mais Valor (TDC-2015)
Sprint Zero com mais Valor (TDC-2015)
 
Sobre TDD - Tech Friday da Everis Uberlândia
Sobre TDD - Tech Friday da Everis UberlândiaSobre TDD - Tech Friday da Everis Uberlândia
Sobre TDD - Tech Friday da Everis Uberlândia
 

Site Reliability Engineering: descubra uma nova era para Dev e Infra

  • 1. Site Reliability Engineering Descubra uma nova era para a área de Dev e Infra.
  • 2. $whoami ● Pery Lemke aka Peronium ● SRE na Ahgora Sistemas ● Sudocaster :) ● Membro da organização do meetup DevOps Floripa ● Entusiasta DevOps ● Garimpeiro de bandas obscuras de Stoner e Doom.
  • 3. Em linhas gerais o que é SRE? SRE acrônimo de Site Reliability Engineer é o que acontece quando você pede para um engenheiro de software para projetar uma equipe de operações. Ou seja, SRE é a implementação da cultura DevOps com aditivos.
  • 4. Roadmap ● Conceitos básicos de SRE; ● Debate.
  • 6. Em 2003, Ben Treynor recebeu o desafio de gerenciar a “Equipe de Produção” que era composta por 7 engenheiros. Porém ele era um Engenheiro de Software. Desafio proposto
  • 7. DevOps e SRE ● DevOps é uma generalização de vários princípios fundamentais para uma ampla e vasta gama de organizações, estruturas de gestão e pessoal. ● Já o SRE é uma implementação do DevOps com algumas extensões peculiares.
  • 8. O que o SRE faz no dia a dia? Um time SRE é responsável pela disponibilidade, latência, desempenho, eficiência, gerenciamento de mudança, monitoramento, resposta a emergência e plano de capacidade (capacity planning) dos serviços que eles são responsáveis
  • 9. ● Arrumar periféricos em geral; ● Verificar o porquê do Word não estar funcionando; ● Saber o porque do travamento do Windows; ● Desinstalar o Baidu. O que o SRE não faz no dia a dia?
  • 11. Times de SRE Geralmente são compostos por: ● 100% do time são Desenvolvedores; ● 50% do time com skills de Redes e SO; Com essa mescla de skills Dev e Ops o time terá competência e condições para rapidamente construir sistemas auxiliares para substituir trabalhos manuais.
  • 12. Foco ● 50% do tempo resolvendo Tickets e atuando em atividades operacionais ● 50% restante desenvolvendo ferramentas para automatizar as atividades
  • 13. Os 7 Principios fundamentais ● Embracing Risk; ● Service Level Objectives (SLO); ● Eliminating Toil; ● Monitoring Distributed Systems; ● Automation; ● Release Engineering; ● Simplicity.
  • 14. Embracing Risk A principal função do SRE é gerenciar a confiabilidade do serviço através da gestão de riscos. Risco é uma constante na operação de um serviço e o dia-a-dia do time de SRE é manter a confiabilidade do serviço dentro de um range aceitável, equilibrando as demandas de alta inovação e gestão de riscos operacionais.
  • 15. Service Level Objectives (SLO) Muitos conhecem o termo SLA (Service Level Agreement), porém o Google entende isso como SLO (Service Level Objectives), onde são definidos uma série métricas para medir o serviço prestado. Porém, os indicadores devem ser exutos, muitos indicadores tornam sua operação complexa para monitorar.
  • 16. Eliminating Toil Não significa propriamente, trabalho que não gosto de fazer e nem trabalho sujo. E sim uma série de esforços: ● Manual; ● Repetitivo; ● Automatizável; ● Tático; ● Sem valor a longo prazo; ● Com o crescimento da operação.
  • 17. Monitoring Distributed Systems No Google existem os seguintes tipos de monitoramento: ● Monitoring; ● White-box monitoring; ● Black-box monitoring; ● Dashboard; ● Alert; ● Root cause; ● Node and machine; ● Push.
  • 18. Automation O valor da automação tem como base: ● Consistência; ● Plataforma; ● Reparos rápidos; ● Ações rápidas; ● Time Saving.
  • 19. Release Engineering Os 4 princípios básicos de Release Engineering são: ● Self-Service Model; ● Alta velocidade; ● Builds herméticos; ● Execução de Políticas e Procedimentos.
  • 20. Simplicity O preço de confiabilidade é a busca da maior simplicidade. No Google, os Engenheiros buscam construir sistemas estáveis com um desenvolvimento simples para ter uma manutenção fácil no futuro.
  • 21. Debate O que vocês estão fazendo para melhorar o seu dia a dia de trabalho? Está gerando valor seja para você e para sua organização?
  • 22. Referências Bibliográficas ● https://landing.google.com/sre/book/ ● https://www.fernandoike.com/2017/03/23/site-reliability-engineer---sre/ ● https://churrops.io/2017/10/27/sre-abracando-o-risco/ ● https://churrops.io/2017/10/09/o-que-e-sre-site-reliability-engineering/
  • 23. Agradecimentos Agradecimento especial ao Fernando Ike pela mentoria para esta talk. Agradecer a Ahgora Sistemas pelo apoio. E as vocês por participarem e ouvirem este pobre speaker. :)