SlideShare uma empresa Scribd logo
Site Reliability Engineering
Como desenvolvimento e operações evoluíram para um
modelo mais moderno e equilibrado
- Desenvolvimento: Toda atividade relacionada a desenvolver novas features,
corrigir bugs e reduzir o débito técnico
- Operações: Atividades voltadas à manutenção e configuração de servidores e
infraestrutura
- Deploy: Ação de publicar novas versões de um determinado software
Glossário
Devs
Objetivos: Desenvolver e publicar software, com
alterações e novas features
Antes de tudo, como era antes?
Sysadmins:
Objetivos: Manter os sistemas estáveis e
funcionais
Surgem os conflitos de interesse
Times disfuncionais e custos
diretos e indiretos
Toda nova publicação
pode potencialmente
quebrar os sistemas
rodando
Demoras e restrições
para publicar novas
features e correções de
bug geram o custo de
oportunidade
+
Cultura
Devops
Uma combinação de práticas unindo dev e operações, visando diminuir o tempo do
ciclo de desenvolvimento e promover entrega contínua
Desenvolvimento
Integração contínua (CI)
Testes automatizados
Entrega Contínua (CD)
Configuração
Monitoramento
Práticas DevOps
SRE
Conceito introduzido pelo Google com diversas práticas e conceitos visando a
confiabilidade de sistemas.
Sistemas instáveis degradam a
confiança do usuário e trazem
diversos prejuízos.
Gerenciando o
risco e
melhorando a
estabilidade
Nem sempre um sistema estável ao
extremo é a melhor solução
Custos e riscos de
uma alta
disponibilidade
Custo de recursos redundantes
Para termos uma disponibilidade alta, uma das estratégias mais comuns é a
redundância de recursos, onde disponibilizamos a mesma aplicação em vários
servidores diferentes
Custo de oportunidade
Ao escolher aumentar a estabilidade, estamos abrindo mão de desenvolver novas
features e produtos
SLIs, SLOs e SLAs
SLI (Service level indicator): qualquer tipo de
métrica relacionada com a disponibilidade, como
latência, throughput e quantidade de erros.
SLO (Service level objective): é o alvo desejado
para os SLIs definidos, geralmente usado
internamente.
SLA (Service level agreement): Um acordo,
geralmente formalizado por contratos e com
obrigações legais vinculadas.
Exemplo:
SLI: Latência dos requests
SLO: Deve ser menor que 300 milissegundos, para
uso interno do time
SLA: Deve ser menor que 500 milissegundos, com
consequências atreladas (multas ou outras
implicações legais)
O que é uma disponibilidade desejável?
Existem vários fatores a se considerar, como:
- Criticidade do serviço
- Riscos envolvidos nas falhas sistêmicas
- Esse serviço é ligado diretamente à receita da empresa?
- Existem competidores no mercado? Qual a disponibilidade que eles oferecem?
O que é uma disponibilidade desejável?
O que é uma disponibilidade desejável?
Um exemplo real: app engine do google cloud
Error budgets
Após definir a disponibilidade desejada, podemos definir nossos error budgets (algo
como orçamento para falhas) e com isso podemos ter decisões mais embasadas. Ex:
- Com 99.9% de SLA, podemos ter 8h de downtime por ano ou 2h por trimestre.
- Se no meio do ano já tivemos 7h de downtime, quer dizer que estamos quase
passando os objetivos, então devemos trabalhar mais em estabilidade
Novas features Estabilidade
Metrificando quantidade de erros por semana
Metrificando tempos de resposta
Mas e o cargo de SRE/Devops?
- Geralmente as pessoas nesse papel irão
cuidar da estrutura e auxiliar diversos times
com automações, ferramentas de
observabilidade e entrega contínua por conta
do background mais especializado
- Importante lembrar que gerir a
confiabilidade dos sistemas é dever de todos.
Isso evita aquela separação entre
desenvolvimento e operações mencionada
anteriormente.
“Hope is not a
strategy.”
- Traditional SRE saying
Obrigado!
Dúvidas, sugestões?
Referências e livros completos:
https://sre.google/books/

Mais conteúdo relacionado

Mais procurados

DevOps Torino Meetup - SRE Concepts
DevOps Torino Meetup - SRE ConceptsDevOps Torino Meetup - SRE Concepts
DevOps Torino Meetup - SRE Concepts
Rauno De Pasquale
 
Site reliability engineering
Site reliability engineeringSite reliability engineering
Site reliability engineering
Jason Loeffler
 
SRE Demystified - 01 - SLO SLI and SLA
SRE Demystified - 01 - SLO SLI and SLASRE Demystified - 01 - SLO SLI and SLA
SRE Demystified - 01 - SLO SLI and SLA
Dr Ganesh Iyer
 
Site Reliability Engineer (SRE), We Keep The Lights On 24/7
Site Reliability Engineer (SRE), We Keep The Lights On 24/7Site Reliability Engineer (SRE), We Keep The Lights On 24/7
Site Reliability Engineer (SRE), We Keep The Lights On 24/7
NUS-ISS
 
Site reliability engineering - Lightning Talk
Site reliability engineering - Lightning TalkSite reliability engineering - Lightning Talk
Site reliability engineering - Lightning Talk
Michae Blakeney
 
Site (Service) Reliability Engineering
Site (Service) Reliability EngineeringSite (Service) Reliability Engineering
Site (Service) Reliability Engineering
Mark Underwood
 
SRE 101
SRE 101SRE 101
SRE 101
Diego Pacheco
 
Site Reliability Engineering: An Enterprise Adoption Story (an ITSM Academy W...
Site Reliability Engineering: An Enterprise Adoption Story (an ITSM Academy W...Site Reliability Engineering: An Enterprise Adoption Story (an ITSM Academy W...
Site Reliability Engineering: An Enterprise Adoption Story (an ITSM Academy W...
ITSM Academy, Inc.
 
SRE-iously! Reliability!
SRE-iously! Reliability!SRE-iously! Reliability!
SRE-iously! Reliability!
New Relic
 
SRE 101 (Site Reliability Engineering)
SRE 101 (Site Reliability Engineering)SRE 101 (Site Reliability Engineering)
SRE 101 (Site Reliability Engineering)
Hussain Mansoor
 
Testing as a Managed Service using SLAs and KPIs
Testing as a Managed Service using SLAs and KPIsTesting as a Managed Service using SLAs and KPIs
Testing as a Managed Service using SLAs and KPIs
Prolifics
 
Managing software projects & teams effectively
Managing software projects & teams effectivelyManaging software projects & teams effectively
Managing software projects & teams effectively
Ashutosh Agarwal
 
What is Site Reliability Engineering (SRE)
What is Site Reliability Engineering (SRE)What is Site Reliability Engineering (SRE)
What is Site Reliability Engineering (SRE)
jeetendra mandal
 
Sre summary
Sre summarySre summary
Sre summary
Yogesh Shah
 
Service Level Terminology : SLA ,SLO & SLI
Service Level Terminology : SLA ,SLO & SLIService Level Terminology : SLA ,SLO & SLI
Service Level Terminology : SLA ,SLO & SLI
Knoldus Inc.
 
Getting started with Site Reliability Engineering (SRE)
Getting started with Site Reliability Engineering (SRE)Getting started with Site Reliability Engineering (SRE)
Getting started with Site Reliability Engineering (SRE)
Abeer R
 
How Small Team Get Ready for SRE (public version)
How Small Team Get Ready for SRE (public version)How Small Team Get Ready for SRE (public version)
How Small Team Get Ready for SRE (public version)
Setyo Legowo
 
Shift left - find defects earlier through automated test and deployment
Shift left - find defects earlier through automated test and deploymentShift left - find defects earlier through automated test and deployment
Shift left - find defects earlier through automated test and deployment
Claudia Ring
 
The Journey to DevOps #MFSummit2017
The Journey to DevOps #MFSummit2017The Journey to DevOps #MFSummit2017
The Journey to DevOps #MFSummit2017
Micro Focus
 
SRE-iously! Defining the Principles, Habits, and Practices of Site Reliabilit...
SRE-iously! Defining the Principles, Habits, and Practices of Site Reliabilit...SRE-iously! Defining the Principles, Habits, and Practices of Site Reliabilit...
SRE-iously! Defining the Principles, Habits, and Practices of Site Reliabilit...
Tori Wieldt
 

Mais procurados (20)

DevOps Torino Meetup - SRE Concepts
DevOps Torino Meetup - SRE ConceptsDevOps Torino Meetup - SRE Concepts
DevOps Torino Meetup - SRE Concepts
 
Site reliability engineering
Site reliability engineeringSite reliability engineering
Site reliability engineering
 
SRE Demystified - 01 - SLO SLI and SLA
SRE Demystified - 01 - SLO SLI and SLASRE Demystified - 01 - SLO SLI and SLA
SRE Demystified - 01 - SLO SLI and SLA
 
Site Reliability Engineer (SRE), We Keep The Lights On 24/7
Site Reliability Engineer (SRE), We Keep The Lights On 24/7Site Reliability Engineer (SRE), We Keep The Lights On 24/7
Site Reliability Engineer (SRE), We Keep The Lights On 24/7
 
Site reliability engineering - Lightning Talk
Site reliability engineering - Lightning TalkSite reliability engineering - Lightning Talk
Site reliability engineering - Lightning Talk
 
Site (Service) Reliability Engineering
Site (Service) Reliability EngineeringSite (Service) Reliability Engineering
Site (Service) Reliability Engineering
 
SRE 101
SRE 101SRE 101
SRE 101
 
Site Reliability Engineering: An Enterprise Adoption Story (an ITSM Academy W...
Site Reliability Engineering: An Enterprise Adoption Story (an ITSM Academy W...Site Reliability Engineering: An Enterprise Adoption Story (an ITSM Academy W...
Site Reliability Engineering: An Enterprise Adoption Story (an ITSM Academy W...
 
SRE-iously! Reliability!
SRE-iously! Reliability!SRE-iously! Reliability!
SRE-iously! Reliability!
 
SRE 101 (Site Reliability Engineering)
SRE 101 (Site Reliability Engineering)SRE 101 (Site Reliability Engineering)
SRE 101 (Site Reliability Engineering)
 
Testing as a Managed Service using SLAs and KPIs
Testing as a Managed Service using SLAs and KPIsTesting as a Managed Service using SLAs and KPIs
Testing as a Managed Service using SLAs and KPIs
 
Managing software projects & teams effectively
Managing software projects & teams effectivelyManaging software projects & teams effectively
Managing software projects & teams effectively
 
What is Site Reliability Engineering (SRE)
What is Site Reliability Engineering (SRE)What is Site Reliability Engineering (SRE)
What is Site Reliability Engineering (SRE)
 
Sre summary
Sre summarySre summary
Sre summary
 
Service Level Terminology : SLA ,SLO & SLI
Service Level Terminology : SLA ,SLO & SLIService Level Terminology : SLA ,SLO & SLI
Service Level Terminology : SLA ,SLO & SLI
 
Getting started with Site Reliability Engineering (SRE)
Getting started with Site Reliability Engineering (SRE)Getting started with Site Reliability Engineering (SRE)
Getting started with Site Reliability Engineering (SRE)
 
How Small Team Get Ready for SRE (public version)
How Small Team Get Ready for SRE (public version)How Small Team Get Ready for SRE (public version)
How Small Team Get Ready for SRE (public version)
 
Shift left - find defects earlier through automated test and deployment
Shift left - find defects earlier through automated test and deploymentShift left - find defects earlier through automated test and deployment
Shift left - find defects earlier through automated test and deployment
 
The Journey to DevOps #MFSummit2017
The Journey to DevOps #MFSummit2017The Journey to DevOps #MFSummit2017
The Journey to DevOps #MFSummit2017
 
SRE-iously! Defining the Principles, Habits, and Practices of Site Reliabilit...
SRE-iously! Defining the Principles, Habits, and Practices of Site Reliabilit...SRE-iously! Defining the Principles, Habits, and Practices of Site Reliabilit...
SRE-iously! Defining the Principles, Habits, and Practices of Site Reliabilit...
 

Semelhante a Uma introdução à SRE - Site reliability engineering

SRE - Esperança não é uma estratégia
SRE - Esperança não é uma estratégiaSRE - Esperança não é uma estratégia
SRE - Esperança não é uma estratégia
Leandro Silva
 
GCS - Aula 09 - GCS Ágil
GCS - Aula 09 - GCS ÁgilGCS - Aula 09 - GCS Ágil
GCS - Aula 09 - GCS Ágil
Misael Santos
 
Workshop soa, microservices e devops
Workshop soa, microservices e devopsWorkshop soa, microservices e devops
Workshop soa, microservices e devops
Diego Pacheco
 
Phprs meetup - deploys automatizados com gitlab
Phprs   meetup - deploys automatizados com gitlabPhprs   meetup - deploys automatizados com gitlab
Phprs meetup - deploys automatizados com gitlab
Jackson F. de A. Mafra
 
Introdução Qualidade de Software
Introdução Qualidade de SoftwareIntrodução Qualidade de Software
Introdução Qualidade de Software
Wellington Oliveira
 
Rejuvenescimento Software
Rejuvenescimento SoftwareRejuvenescimento Software
Rejuvenescimento Software
Marcus Oliveira
 
Impacto do DevOps nos negócios
Impacto do DevOps nos negóciosImpacto do DevOps nos negócios
Impacto do DevOps nos negócios
Ramon Durães
 
Como Trazer o Legado para SOA
Como Trazer o Legado para SOAComo Trazer o Legado para SOA
Como Trazer o Legado para SOA
Davi Silva
 
Real World S O A
Real World S O AReal World S O A
Real World S O A
Paulo Traça
 
A Arte dos Testes de Performance Aplicacional
A Arte dos Testes de Performance AplicacionalA Arte dos Testes de Performance Aplicacional
A Arte dos Testes de Performance Aplicacional
Nuno Baptista Rodrigues
 
Projeto de Migração de Plataforma - Reunião de Andamento
Projeto de Migração de Plataforma - Reunião de AndamentoProjeto de Migração de Plataforma - Reunião de Andamento
Projeto de Migração de Plataforma - Reunião de Andamentoramonazevedo
 
Qualidade de software
Qualidade de softwareQualidade de software
Qualidade de software
Rodrigo Oliveira, Msc, PMP
 
Gerenciamento de contratos sem planilhas e com baixo investimento
Gerenciamento de contratos sem planilhas e com baixo investimentoGerenciamento de contratos sem planilhas e com baixo investimento
Gerenciamento de contratos sem planilhas e com baixo investimentocomercial-suse
 
Saa s software como serviço (slides)
Saa s   software como serviço (slides)Saa s   software como serviço (slides)
Saa s software como serviço (slides)Daniela Nunes
 
Tees Final
Tees FinalTees Final
Tees Final
Marcus Oliveira
 
Resumo capítulo 1 livro Engenharia de Software Moderna
Resumo capítulo 1 livro Engenharia de Software ModernaResumo capítulo 1 livro Engenharia de Software Moderna
Resumo capítulo 1 livro Engenharia de Software Moderna
LucasBastos305659
 
DevOps e App Insights
DevOps e App InsightsDevOps e App Insights
DevOps e App Insights
Guilherme Cardoso
 
Utilizando metologias ágeis com VSTS: Scrum e XP, YES WE CAN! (ALM204)
Utilizando metologias ágeis com VSTS: Scrum e XP, YES WE CAN! (ALM204)Utilizando metologias ágeis com VSTS: Scrum e XP, YES WE CAN! (ALM204)
Utilizando metologias ágeis com VSTS: Scrum e XP, YES WE CAN! (ALM204)
André Dias
 
Best2bee Business Model
Best2bee Business ModelBest2bee Business Model
Best2bee Business Model
Miguel Vilaca
 
Software na medida certa: desmistificando pontos de função - apresentado no I...
Software na medida certa: desmistificando pontos de função - apresentado no I...Software na medida certa: desmistificando pontos de função - apresentado no I...
Software na medida certa: desmistificando pontos de função - apresentado no I...
Fatto Consultoria e Sistemas
 

Semelhante a Uma introdução à SRE - Site reliability engineering (20)

SRE - Esperança não é uma estratégia
SRE - Esperança não é uma estratégiaSRE - Esperança não é uma estratégia
SRE - Esperança não é uma estratégia
 
GCS - Aula 09 - GCS Ágil
GCS - Aula 09 - GCS ÁgilGCS - Aula 09 - GCS Ágil
GCS - Aula 09 - GCS Ágil
 
Workshop soa, microservices e devops
Workshop soa, microservices e devopsWorkshop soa, microservices e devops
Workshop soa, microservices e devops
 
Phprs meetup - deploys automatizados com gitlab
Phprs   meetup - deploys automatizados com gitlabPhprs   meetup - deploys automatizados com gitlab
Phprs meetup - deploys automatizados com gitlab
 
Introdução Qualidade de Software
Introdução Qualidade de SoftwareIntrodução Qualidade de Software
Introdução Qualidade de Software
 
Rejuvenescimento Software
Rejuvenescimento SoftwareRejuvenescimento Software
Rejuvenescimento Software
 
Impacto do DevOps nos negócios
Impacto do DevOps nos negóciosImpacto do DevOps nos negócios
Impacto do DevOps nos negócios
 
Como Trazer o Legado para SOA
Como Trazer o Legado para SOAComo Trazer o Legado para SOA
Como Trazer o Legado para SOA
 
Real World S O A
Real World S O AReal World S O A
Real World S O A
 
A Arte dos Testes de Performance Aplicacional
A Arte dos Testes de Performance AplicacionalA Arte dos Testes de Performance Aplicacional
A Arte dos Testes de Performance Aplicacional
 
Projeto de Migração de Plataforma - Reunião de Andamento
Projeto de Migração de Plataforma - Reunião de AndamentoProjeto de Migração de Plataforma - Reunião de Andamento
Projeto de Migração de Plataforma - Reunião de Andamento
 
Qualidade de software
Qualidade de softwareQualidade de software
Qualidade de software
 
Gerenciamento de contratos sem planilhas e com baixo investimento
Gerenciamento de contratos sem planilhas e com baixo investimentoGerenciamento de contratos sem planilhas e com baixo investimento
Gerenciamento de contratos sem planilhas e com baixo investimento
 
Saa s software como serviço (slides)
Saa s   software como serviço (slides)Saa s   software como serviço (slides)
Saa s software como serviço (slides)
 
Tees Final
Tees FinalTees Final
Tees Final
 
Resumo capítulo 1 livro Engenharia de Software Moderna
Resumo capítulo 1 livro Engenharia de Software ModernaResumo capítulo 1 livro Engenharia de Software Moderna
Resumo capítulo 1 livro Engenharia de Software Moderna
 
DevOps e App Insights
DevOps e App InsightsDevOps e App Insights
DevOps e App Insights
 
Utilizando metologias ágeis com VSTS: Scrum e XP, YES WE CAN! (ALM204)
Utilizando metologias ágeis com VSTS: Scrum e XP, YES WE CAN! (ALM204)Utilizando metologias ágeis com VSTS: Scrum e XP, YES WE CAN! (ALM204)
Utilizando metologias ágeis com VSTS: Scrum e XP, YES WE CAN! (ALM204)
 
Best2bee Business Model
Best2bee Business ModelBest2bee Business Model
Best2bee Business Model
 
Software na medida certa: desmistificando pontos de função - apresentado no I...
Software na medida certa: desmistificando pontos de função - apresentado no I...Software na medida certa: desmistificando pontos de função - apresentado no I...
Software na medida certa: desmistificando pontos de função - apresentado no I...
 

Uma introdução à SRE - Site reliability engineering

  • 1. Site Reliability Engineering Como desenvolvimento e operações evoluíram para um modelo mais moderno e equilibrado
  • 2. - Desenvolvimento: Toda atividade relacionada a desenvolver novas features, corrigir bugs e reduzir o débito técnico - Operações: Atividades voltadas à manutenção e configuração de servidores e infraestrutura - Deploy: Ação de publicar novas versões de um determinado software Glossário
  • 3. Devs Objetivos: Desenvolver e publicar software, com alterações e novas features Antes de tudo, como era antes? Sysadmins: Objetivos: Manter os sistemas estáveis e funcionais
  • 4. Surgem os conflitos de interesse Times disfuncionais e custos diretos e indiretos Toda nova publicação pode potencialmente quebrar os sistemas rodando Demoras e restrições para publicar novas features e correções de bug geram o custo de oportunidade +
  • 5.
  • 6. Cultura Devops Uma combinação de práticas unindo dev e operações, visando diminuir o tempo do ciclo de desenvolvimento e promover entrega contínua
  • 7. Desenvolvimento Integração contínua (CI) Testes automatizados Entrega Contínua (CD) Configuração Monitoramento Práticas DevOps
  • 8. SRE Conceito introduzido pelo Google com diversas práticas e conceitos visando a confiabilidade de sistemas.
  • 9. Sistemas instáveis degradam a confiança do usuário e trazem diversos prejuízos. Gerenciando o risco e melhorando a estabilidade
  • 10. Nem sempre um sistema estável ao extremo é a melhor solução Custos e riscos de uma alta disponibilidade
  • 11. Custo de recursos redundantes Para termos uma disponibilidade alta, uma das estratégias mais comuns é a redundância de recursos, onde disponibilizamos a mesma aplicação em vários servidores diferentes
  • 12. Custo de oportunidade Ao escolher aumentar a estabilidade, estamos abrindo mão de desenvolver novas features e produtos
  • 13. SLIs, SLOs e SLAs SLI (Service level indicator): qualquer tipo de métrica relacionada com a disponibilidade, como latência, throughput e quantidade de erros. SLO (Service level objective): é o alvo desejado para os SLIs definidos, geralmente usado internamente. SLA (Service level agreement): Um acordo, geralmente formalizado por contratos e com obrigações legais vinculadas. Exemplo: SLI: Latência dos requests SLO: Deve ser menor que 300 milissegundos, para uso interno do time SLA: Deve ser menor que 500 milissegundos, com consequências atreladas (multas ou outras implicações legais)
  • 14. O que é uma disponibilidade desejável? Existem vários fatores a se considerar, como: - Criticidade do serviço - Riscos envolvidos nas falhas sistêmicas - Esse serviço é ligado diretamente à receita da empresa? - Existem competidores no mercado? Qual a disponibilidade que eles oferecem?
  • 15. O que é uma disponibilidade desejável?
  • 16. O que é uma disponibilidade desejável?
  • 17. Um exemplo real: app engine do google cloud
  • 18. Error budgets Após definir a disponibilidade desejada, podemos definir nossos error budgets (algo como orçamento para falhas) e com isso podemos ter decisões mais embasadas. Ex: - Com 99.9% de SLA, podemos ter 8h de downtime por ano ou 2h por trimestre. - Se no meio do ano já tivemos 7h de downtime, quer dizer que estamos quase passando os objetivos, então devemos trabalhar mais em estabilidade Novas features Estabilidade
  • 19. Metrificando quantidade de erros por semana
  • 21. Mas e o cargo de SRE/Devops? - Geralmente as pessoas nesse papel irão cuidar da estrutura e auxiliar diversos times com automações, ferramentas de observabilidade e entrega contínua por conta do background mais especializado - Importante lembrar que gerir a confiabilidade dos sistemas é dever de todos. Isso evita aquela separação entre desenvolvimento e operações mencionada anteriormente.
  • 22. “Hope is not a strategy.” - Traditional SRE saying
  • 23. Obrigado! Dúvidas, sugestões? Referências e livros completos: https://sre.google/books/