SlideShare uma empresa Scribd logo
1 de 23
Baixar para ler offline
Site Reliability Engineering
Como desenvolvimento e operações evoluíram para um
modelo mais moderno e equilibrado
- Desenvolvimento: Toda atividade relacionada a desenvolver novas features,
corrigir bugs e reduzir o débito técnico
- Operações: Atividades voltadas à manutenção e configuração de servidores e
infraestrutura
- Deploy: Ação de publicar novas versões de um determinado software
Glossário
Devs
Objetivos: Desenvolver e publicar software, com
alterações e novas features
Antes de tudo, como era antes?
Sysadmins:
Objetivos: Manter os sistemas estáveis e
funcionais
Surgem os conflitos de interesse
Times disfuncionais e custos
diretos e indiretos
Toda nova publicação
pode potencialmente
quebrar os sistemas
rodando
Demoras e restrições
para publicar novas
features e correções de
bug geram o custo de
oportunidade
+
Cultura
Devops
Uma combinação de práticas unindo dev e operações, visando diminuir o tempo do
ciclo de desenvolvimento e promover entrega contínua
Desenvolvimento
Integração contínua (CI)
Testes automatizados
Entrega Contínua (CD)
Configuração
Monitoramento
Práticas DevOps
SRE
Conceito introduzido pelo Google com diversas práticas e conceitos visando a
confiabilidade de sistemas.
Sistemas instáveis degradam a
confiança do usuário e trazem
diversos prejuízos.
Gerenciando o
risco e
melhorando a
estabilidade
Nem sempre um sistema estável ao
extremo é a melhor solução
Custos e riscos de
uma alta
disponibilidade
Custo de recursos redundantes
Para termos uma disponibilidade alta, uma das estratégias mais comuns é a
redundância de recursos, onde disponibilizamos a mesma aplicação em vários
servidores diferentes
Custo de oportunidade
Ao escolher aumentar a estabilidade, estamos abrindo mão de desenvolver novas
features e produtos
SLIs, SLOs e SLAs
SLI (Service level indicator): qualquer tipo de
métrica relacionada com a disponibilidade, como
latência, throughput e quantidade de erros.
SLO (Service level objective): é o alvo desejado
para os SLIs definidos, geralmente usado
internamente.
SLA (Service level agreement): Um acordo,
geralmente formalizado por contratos e com
obrigações legais vinculadas.
Exemplo:
SLI: Latência dos requests
SLO: Deve ser menor que 300 milissegundos, para
uso interno do time
SLA: Deve ser menor que 500 milissegundos, com
consequências atreladas (multas ou outras
implicações legais)
O que é uma disponibilidade desejável?
Existem vários fatores a se considerar, como:
- Criticidade do serviço
- Riscos envolvidos nas falhas sistêmicas
- Esse serviço é ligado diretamente à receita da empresa?
- Existem competidores no mercado? Qual a disponibilidade que eles oferecem?
O que é uma disponibilidade desejável?
O que é uma disponibilidade desejável?
Um exemplo real: app engine do google cloud
Error budgets
Após definir a disponibilidade desejada, podemos definir nossos error budgets (algo
como orçamento para falhas) e com isso podemos ter decisões mais embasadas. Ex:
- Com 99.9% de SLA, podemos ter 8h de downtime por ano ou 2h por trimestre.
- Se no meio do ano já tivemos 7h de downtime, quer dizer que estamos quase
passando os objetivos, então devemos trabalhar mais em estabilidade
Novas features Estabilidade
Metrificando quantidade de erros por semana
Metrificando tempos de resposta
Mas e o cargo de SRE/Devops?
- Geralmente as pessoas nesse papel irão
cuidar da estrutura e auxiliar diversos times
com automações, ferramentas de
observabilidade e entrega contínua por conta
do background mais especializado
- Importante lembrar que gerir a
confiabilidade dos sistemas é dever de todos.
Isso evita aquela separação entre
desenvolvimento e operações mencionada
anteriormente.
“Hope is not a
strategy.”
- Traditional SRE saying
Obrigado!
Dúvidas, sugestões?
Referências e livros completos:
https://sre.google/books/

Mais conteúdo relacionado

Mais procurados

Cncf checkov and bridgecrew
Cncf checkov and bridgecrewCncf checkov and bridgecrew
Cncf checkov and bridgecrewLibbySchulze
 
DevOps, Common use cases, Architectures, Best Practices
DevOps, Common use cases, Architectures, Best PracticesDevOps, Common use cases, Architectures, Best Practices
DevOps, Common use cases, Architectures, Best PracticesShiva Narayanaswamy
 
How Small Team Get Ready for SRE (public version)
How Small Team Get Ready for SRE (public version)How Small Team Get Ready for SRE (public version)
How Small Team Get Ready for SRE (public version)Setyo Legowo
 
SRE and GitOps for Building Robust Kubernetes Platforms.pdf
SRE and GitOps for Building Robust Kubernetes Platforms.pdfSRE and GitOps for Building Robust Kubernetes Platforms.pdf
SRE and GitOps for Building Robust Kubernetes Platforms.pdfWeaveworks
 
DevOps Implementation Roadmap
DevOps Implementation RoadmapDevOps Implementation Roadmap
DevOps Implementation RoadmapSofiaCarter4
 
The Next Wave of Reliability Engineering
The Next Wave of Reliability EngineeringThe Next Wave of Reliability Engineering
The Next Wave of Reliability EngineeringMichael Kehoe
 
DevOps vs. Site Reliability Engineering (SRE) in Age of Kubernetes
DevOps vs. Site Reliability Engineering (SRE) in Age of KubernetesDevOps vs. Site Reliability Engineering (SRE) in Age of Kubernetes
DevOps vs. Site Reliability Engineering (SRE) in Age of KubernetesDevOps.com
 
Kubernetes 101 - A Cluster Operating System
Kubernetes 101 - A Cluster Operating SystemKubernetes 101 - A Cluster Operating System
Kubernetes 101 - A Cluster Operating Systemmikaelbarbero
 
Kubernetes Installation on Ubuntu | Edureka
Kubernetes Installation on Ubuntu | EdurekaKubernetes Installation on Ubuntu | Edureka
Kubernetes Installation on Ubuntu | EdurekaEdureka!
 
Site Reliability Engineering: An Enterprise Adoption Story (an ITSM Academy W...
Site Reliability Engineering: An Enterprise Adoption Story (an ITSM Academy W...Site Reliability Engineering: An Enterprise Adoption Story (an ITSM Academy W...
Site Reliability Engineering: An Enterprise Adoption Story (an ITSM Academy W...ITSM Academy, Inc.
 
Bjorn Rabenstein. SRE, DevOps, Google, and you
Bjorn Rabenstein. SRE, DevOps, Google, and youBjorn Rabenstein. SRE, DevOps, Google, and you
Bjorn Rabenstein. SRE, DevOps, Google, and youIT Arena
 
Flusso Continuous Integration & Continuous Delivery
Flusso Continuous Integration & Continuous DeliveryFlusso Continuous Integration & Continuous Delivery
Flusso Continuous Integration & Continuous DeliveryJoost van der Griendt
 
SRE-iously: Defining the Principles, Habits, and Practices of Site Reliabilit...
SRE-iously: Defining the Principles, Habits, and Practices of Site Reliabilit...SRE-iously: Defining the Principles, Habits, and Practices of Site Reliabilit...
SRE-iously: Defining the Principles, Habits, and Practices of Site Reliabilit...New Relic
 
Cloud Managed Services
Cloud Managed ServicesCloud Managed Services
Cloud Managed ServicesJade Global
 
Cloud Native Apps with GitOps
Cloud Native Apps with GitOps Cloud Native Apps with GitOps
Cloud Native Apps with GitOps Weaveworks
 
SRE-iously! Defining the Principles, Habits, and Practices of Site Reliabilit...
SRE-iously! Defining the Principles, Habits, and Practices of Site Reliabilit...SRE-iously! Defining the Principles, Habits, and Practices of Site Reliabilit...
SRE-iously! Defining the Principles, Habits, and Practices of Site Reliabilit...Tori Wieldt
 
SRE Demystified - 01 - SLO SLI and SLA
SRE Demystified - 01 - SLO SLI and SLASRE Demystified - 01 - SLO SLI and SLA
SRE Demystified - 01 - SLO SLI and SLADr Ganesh Iyer
 

Mais procurados (20)

Cncf checkov and bridgecrew
Cncf checkov and bridgecrewCncf checkov and bridgecrew
Cncf checkov and bridgecrew
 
DevOps, Common use cases, Architectures, Best Practices
DevOps, Common use cases, Architectures, Best PracticesDevOps, Common use cases, Architectures, Best Practices
DevOps, Common use cases, Architectures, Best Practices
 
How Small Team Get Ready for SRE (public version)
How Small Team Get Ready for SRE (public version)How Small Team Get Ready for SRE (public version)
How Small Team Get Ready for SRE (public version)
 
SRE and GitOps for Building Robust Kubernetes Platforms.pdf
SRE and GitOps for Building Robust Kubernetes Platforms.pdfSRE and GitOps for Building Robust Kubernetes Platforms.pdf
SRE and GitOps for Building Robust Kubernetes Platforms.pdf
 
SRE in Startup
SRE in StartupSRE in Startup
SRE in Startup
 
DevOps Implementation Roadmap
DevOps Implementation RoadmapDevOps Implementation Roadmap
DevOps Implementation Roadmap
 
The Next Wave of Reliability Engineering
The Next Wave of Reliability EngineeringThe Next Wave of Reliability Engineering
The Next Wave of Reliability Engineering
 
DevOps vs. Site Reliability Engineering (SRE) in Age of Kubernetes
DevOps vs. Site Reliability Engineering (SRE) in Age of KubernetesDevOps vs. Site Reliability Engineering (SRE) in Age of Kubernetes
DevOps vs. Site Reliability Engineering (SRE) in Age of Kubernetes
 
Kubernetes 101 - A Cluster Operating System
Kubernetes 101 - A Cluster Operating SystemKubernetes 101 - A Cluster Operating System
Kubernetes 101 - A Cluster Operating System
 
Kubernetes Installation on Ubuntu | Edureka
Kubernetes Installation on Ubuntu | EdurekaKubernetes Installation on Ubuntu | Edureka
Kubernetes Installation on Ubuntu | Edureka
 
Site Reliability Engineering: An Enterprise Adoption Story (an ITSM Academy W...
Site Reliability Engineering: An Enterprise Adoption Story (an ITSM Academy W...Site Reliability Engineering: An Enterprise Adoption Story (an ITSM Academy W...
Site Reliability Engineering: An Enterprise Adoption Story (an ITSM Academy W...
 
Bjorn Rabenstein. SRE, DevOps, Google, and you
Bjorn Rabenstein. SRE, DevOps, Google, and youBjorn Rabenstein. SRE, DevOps, Google, and you
Bjorn Rabenstein. SRE, DevOps, Google, and you
 
Docker & kubernetes
Docker & kubernetesDocker & kubernetes
Docker & kubernetes
 
Flusso Continuous Integration & Continuous Delivery
Flusso Continuous Integration & Continuous DeliveryFlusso Continuous Integration & Continuous Delivery
Flusso Continuous Integration & Continuous Delivery
 
SRE-iously: Defining the Principles, Habits, and Practices of Site Reliabilit...
SRE-iously: Defining the Principles, Habits, and Practices of Site Reliabilit...SRE-iously: Defining the Principles, Habits, and Practices of Site Reliabilit...
SRE-iously: Defining the Principles, Habits, and Practices of Site Reliabilit...
 
Cloud Managed Services
Cloud Managed ServicesCloud Managed Services
Cloud Managed Services
 
Cloud Native Apps with GitOps
Cloud Native Apps with GitOps Cloud Native Apps with GitOps
Cloud Native Apps with GitOps
 
SRE-iously! Defining the Principles, Habits, and Practices of Site Reliabilit...
SRE-iously! Defining the Principles, Habits, and Practices of Site Reliabilit...SRE-iously! Defining the Principles, Habits, and Practices of Site Reliabilit...
SRE-iously! Defining the Principles, Habits, and Practices of Site Reliabilit...
 
SRE Demystified - 01 - SLO SLI and SLA
SRE Demystified - 01 - SLO SLI and SLASRE Demystified - 01 - SLO SLI and SLA
SRE Demystified - 01 - SLO SLI and SLA
 
Keep CALMS and DevSecOps
Keep CALMS and DevSecOps Keep CALMS and DevSecOps
Keep CALMS and DevSecOps
 

Semelhante a SRE: Como DevOps evoluiu para garantir a confiabilidade dos sistemas

SRE - Esperança não é uma estratégia
SRE - Esperança não é uma estratégiaSRE - Esperança não é uma estratégia
SRE - Esperança não é uma estratégiaLeandro Silva
 
GCS - Aula 09 - GCS Ágil
GCS - Aula 09 - GCS ÁgilGCS - Aula 09 - GCS Ágil
GCS - Aula 09 - GCS ÁgilMisael Santos
 
Workshop soa, microservices e devops
Workshop soa, microservices e devopsWorkshop soa, microservices e devops
Workshop soa, microservices e devopsDiego Pacheco
 
Phprs meetup - deploys automatizados com gitlab
Phprs   meetup - deploys automatizados com gitlabPhprs   meetup - deploys automatizados com gitlab
Phprs meetup - deploys automatizados com gitlabJackson F. de A. Mafra
 
Introdução Qualidade de Software
Introdução Qualidade de SoftwareIntrodução Qualidade de Software
Introdução Qualidade de SoftwareWellington Oliveira
 
Rejuvenescimento Software
Rejuvenescimento SoftwareRejuvenescimento Software
Rejuvenescimento SoftwareMarcus Oliveira
 
Impacto do DevOps nos negócios
Impacto do DevOps nos negóciosImpacto do DevOps nos negócios
Impacto do DevOps nos negóciosRamon Durães
 
Como Trazer o Legado para SOA
Como Trazer o Legado para SOAComo Trazer o Legado para SOA
Como Trazer o Legado para SOADavi Silva
 
A Arte dos Testes de Performance Aplicacional
A Arte dos Testes de Performance AplicacionalA Arte dos Testes de Performance Aplicacional
A Arte dos Testes de Performance AplicacionalNuno Baptista Rodrigues
 
Projeto de Migração de Plataforma - Reunião de Andamento
Projeto de Migração de Plataforma - Reunião de AndamentoProjeto de Migração de Plataforma - Reunião de Andamento
Projeto de Migração de Plataforma - Reunião de Andamentoramonazevedo
 
Gerenciamento de contratos sem planilhas e com baixo investimento
Gerenciamento de contratos sem planilhas e com baixo investimentoGerenciamento de contratos sem planilhas e com baixo investimento
Gerenciamento de contratos sem planilhas e com baixo investimentocomercial-suse
 
Saa s software como serviço (slides)
Saa s   software como serviço (slides)Saa s   software como serviço (slides)
Saa s software como serviço (slides)Daniela Nunes
 
Resumo capítulo 1 livro Engenharia de Software Moderna
Resumo capítulo 1 livro Engenharia de Software ModernaResumo capítulo 1 livro Engenharia de Software Moderna
Resumo capítulo 1 livro Engenharia de Software ModernaLucasBastos305659
 
Utilizando metologias ágeis com VSTS: Scrum e XP, YES WE CAN! (ALM204)
Utilizando metologias ágeis com VSTS: Scrum e XP, YES WE CAN! (ALM204)Utilizando metologias ágeis com VSTS: Scrum e XP, YES WE CAN! (ALM204)
Utilizando metologias ágeis com VSTS: Scrum e XP, YES WE CAN! (ALM204)André Dias
 
Best2bee Business Model
Best2bee Business ModelBest2bee Business Model
Best2bee Business ModelMiguel Vilaca
 
Software na medida certa: desmistificando pontos de função - apresentado no I...
Software na medida certa: desmistificando pontos de função - apresentado no I...Software na medida certa: desmistificando pontos de função - apresentado no I...
Software na medida certa: desmistificando pontos de função - apresentado no I...Fatto Consultoria e Sistemas
 

Semelhante a SRE: Como DevOps evoluiu para garantir a confiabilidade dos sistemas (20)

SRE - Esperança não é uma estratégia
SRE - Esperança não é uma estratégiaSRE - Esperança não é uma estratégia
SRE - Esperança não é uma estratégia
 
GCS - Aula 09 - GCS Ágil
GCS - Aula 09 - GCS ÁgilGCS - Aula 09 - GCS Ágil
GCS - Aula 09 - GCS Ágil
 
Workshop soa, microservices e devops
Workshop soa, microservices e devopsWorkshop soa, microservices e devops
Workshop soa, microservices e devops
 
Phprs meetup - deploys automatizados com gitlab
Phprs   meetup - deploys automatizados com gitlabPhprs   meetup - deploys automatizados com gitlab
Phprs meetup - deploys automatizados com gitlab
 
Introdução Qualidade de Software
Introdução Qualidade de SoftwareIntrodução Qualidade de Software
Introdução Qualidade de Software
 
Rejuvenescimento Software
Rejuvenescimento SoftwareRejuvenescimento Software
Rejuvenescimento Software
 
Impacto do DevOps nos negócios
Impacto do DevOps nos negóciosImpacto do DevOps nos negócios
Impacto do DevOps nos negócios
 
Como Trazer o Legado para SOA
Como Trazer o Legado para SOAComo Trazer o Legado para SOA
Como Trazer o Legado para SOA
 
Real World S O A
Real World S O AReal World S O A
Real World S O A
 
A Arte dos Testes de Performance Aplicacional
A Arte dos Testes de Performance AplicacionalA Arte dos Testes de Performance Aplicacional
A Arte dos Testes de Performance Aplicacional
 
Projeto de Migração de Plataforma - Reunião de Andamento
Projeto de Migração de Plataforma - Reunião de AndamentoProjeto de Migração de Plataforma - Reunião de Andamento
Projeto de Migração de Plataforma - Reunião de Andamento
 
Qualidade de software
Qualidade de softwareQualidade de software
Qualidade de software
 
Gerenciamento de contratos sem planilhas e com baixo investimento
Gerenciamento de contratos sem planilhas e com baixo investimentoGerenciamento de contratos sem planilhas e com baixo investimento
Gerenciamento de contratos sem planilhas e com baixo investimento
 
Saa s software como serviço (slides)
Saa s   software como serviço (slides)Saa s   software como serviço (slides)
Saa s software como serviço (slides)
 
Tees Final
Tees FinalTees Final
Tees Final
 
Resumo capítulo 1 livro Engenharia de Software Moderna
Resumo capítulo 1 livro Engenharia de Software ModernaResumo capítulo 1 livro Engenharia de Software Moderna
Resumo capítulo 1 livro Engenharia de Software Moderna
 
DevOps e App Insights
DevOps e App InsightsDevOps e App Insights
DevOps e App Insights
 
Utilizando metologias ágeis com VSTS: Scrum e XP, YES WE CAN! (ALM204)
Utilizando metologias ágeis com VSTS: Scrum e XP, YES WE CAN! (ALM204)Utilizando metologias ágeis com VSTS: Scrum e XP, YES WE CAN! (ALM204)
Utilizando metologias ágeis com VSTS: Scrum e XP, YES WE CAN! (ALM204)
 
Best2bee Business Model
Best2bee Business ModelBest2bee Business Model
Best2bee Business Model
 
Software na medida certa: desmistificando pontos de função - apresentado no I...
Software na medida certa: desmistificando pontos de função - apresentado no I...Software na medida certa: desmistificando pontos de função - apresentado no I...
Software na medida certa: desmistificando pontos de função - apresentado no I...
 

SRE: Como DevOps evoluiu para garantir a confiabilidade dos sistemas

  • 1. Site Reliability Engineering Como desenvolvimento e operações evoluíram para um modelo mais moderno e equilibrado
  • 2. - Desenvolvimento: Toda atividade relacionada a desenvolver novas features, corrigir bugs e reduzir o débito técnico - Operações: Atividades voltadas à manutenção e configuração de servidores e infraestrutura - Deploy: Ação de publicar novas versões de um determinado software Glossário
  • 3. Devs Objetivos: Desenvolver e publicar software, com alterações e novas features Antes de tudo, como era antes? Sysadmins: Objetivos: Manter os sistemas estáveis e funcionais
  • 4. Surgem os conflitos de interesse Times disfuncionais e custos diretos e indiretos Toda nova publicação pode potencialmente quebrar os sistemas rodando Demoras e restrições para publicar novas features e correções de bug geram o custo de oportunidade +
  • 5.
  • 6. Cultura Devops Uma combinação de práticas unindo dev e operações, visando diminuir o tempo do ciclo de desenvolvimento e promover entrega contínua
  • 7. Desenvolvimento Integração contínua (CI) Testes automatizados Entrega Contínua (CD) Configuração Monitoramento Práticas DevOps
  • 8. SRE Conceito introduzido pelo Google com diversas práticas e conceitos visando a confiabilidade de sistemas.
  • 9. Sistemas instáveis degradam a confiança do usuário e trazem diversos prejuízos. Gerenciando o risco e melhorando a estabilidade
  • 10. Nem sempre um sistema estável ao extremo é a melhor solução Custos e riscos de uma alta disponibilidade
  • 11. Custo de recursos redundantes Para termos uma disponibilidade alta, uma das estratégias mais comuns é a redundância de recursos, onde disponibilizamos a mesma aplicação em vários servidores diferentes
  • 12. Custo de oportunidade Ao escolher aumentar a estabilidade, estamos abrindo mão de desenvolver novas features e produtos
  • 13. SLIs, SLOs e SLAs SLI (Service level indicator): qualquer tipo de métrica relacionada com a disponibilidade, como latência, throughput e quantidade de erros. SLO (Service level objective): é o alvo desejado para os SLIs definidos, geralmente usado internamente. SLA (Service level agreement): Um acordo, geralmente formalizado por contratos e com obrigações legais vinculadas. Exemplo: SLI: Latência dos requests SLO: Deve ser menor que 300 milissegundos, para uso interno do time SLA: Deve ser menor que 500 milissegundos, com consequências atreladas (multas ou outras implicações legais)
  • 14. O que é uma disponibilidade desejável? Existem vários fatores a se considerar, como: - Criticidade do serviço - Riscos envolvidos nas falhas sistêmicas - Esse serviço é ligado diretamente à receita da empresa? - Existem competidores no mercado? Qual a disponibilidade que eles oferecem?
  • 15. O que é uma disponibilidade desejável?
  • 16. O que é uma disponibilidade desejável?
  • 17. Um exemplo real: app engine do google cloud
  • 18. Error budgets Após definir a disponibilidade desejada, podemos definir nossos error budgets (algo como orçamento para falhas) e com isso podemos ter decisões mais embasadas. Ex: - Com 99.9% de SLA, podemos ter 8h de downtime por ano ou 2h por trimestre. - Se no meio do ano já tivemos 7h de downtime, quer dizer que estamos quase passando os objetivos, então devemos trabalhar mais em estabilidade Novas features Estabilidade
  • 19. Metrificando quantidade de erros por semana
  • 21. Mas e o cargo de SRE/Devops? - Geralmente as pessoas nesse papel irão cuidar da estrutura e auxiliar diversos times com automações, ferramentas de observabilidade e entrega contínua por conta do background mais especializado - Importante lembrar que gerir a confiabilidade dos sistemas é dever de todos. Isso evita aquela separação entre desenvolvimento e operações mencionada anteriormente.
  • 22. “Hope is not a strategy.” - Traditional SRE saying
  • 23. Obrigado! Dúvidas, sugestões? Referências e livros completos: https://sre.google/books/